Die Anatomie einer Antwort

Jede LLM-Antwort hat zwei Phasen. Zuerst verarbeitet das Modell Ihren gesamten Prompt in einem parallelen Durchlauf (Prefill) - das bestimmt die Zeit bis zum ersten Token. Dann generiert es die Ausgabe Token für Token (Decode) - die Geschwindigkeit dieser Phase ist die Inter-Token-Latenz, üblicherweise berichtet als Ausgabe-Token pro Sekunde. Die gesamte Antwortzeit ist näherungsweise TTFT plus die Anzahl der generierten Token multipliziert mit der Zeit pro Token.

Die Phasen beanspruchen die Hardware unterschiedlich: Der Prefill ist typischerweise rechengebunden, während der Decode bei üblichen Batch-Größen typischerweise durch die Speicherbandbreite begrenzt ist - für jedes neue Token muss die Hardware die Modellgewichte aus dem Speicher bewegen. Deshalb kann dieselbe Hardware eine exzellente Prefill-Performance und zugleich eine mittelmäßige Generierungsgeschwindigkeit haben.

Welche Metrik für welchen Workload zählt

Bei interaktivem Chat dominiert die TTFT die Wahrnehmung - Nutzer bemerken die stille Lücke vor Beginn der Ausgabe weit stärker als die Streaming-Geschwindigkeit. Bei Voice-Agents zählen beide, und die Budgets sind knapp. Bei agentischen Workloads - Coding-Agents, Tool-Calling-Pipelines, autonome Workflows - dominiert die Ausgabegeschwindigkeit: Der Agent muss jedes Token jedes Schritts erhalten, bevor er handeln kann, sodass sich die Generierungsgeschwindigkeit über die gesamte Kette aufsummiert.

Auf unserer Münchner Infrastruktur veröffentlichen wir alle drei Zahlen pro Modell: für gpt-oss-120b 388 ms TTFT, 713 tok/s Ausgabe-Durchsatz und 1,789 s End-to-End für eine Anfrage mit 10.000 Token Eingabe / 1.000 Token Ausgabe (serverseitig p50).

Ehrlich messen

Geschwindigkeitszahlen sind nur vergleichbar, wenn der Workload angegeben ist: Die Prompt-Länge verändert die TTFT, die Ausgabelänge verändert das Verhältnis von TTFT zu Generierung, und die Parallelität verändert alles. Die End-to-End-Latenz umfasst zusätzlich Faktoren jenseits des Modells - Netzwerk-Roundtrips (die Entfernung zum Rechenzentrum zählt), Gateway-Overhead und Warteschlangenzeit auf geteilter Kapazität -, sodass clientseitig gemessene Zahlen immer von serverseitigen abweichen. Unabhängige Benchmarks wie Artificial Analysis veröffentlichen ihre exakten Workloads (Tests mit 1k und 10k Eingabe-Token, 8-mal täglich gemessen, berichtet als 72-Stunden-Mediane) - der Standard, dem auch unsere eigenen veröffentlichten Benchmarks folgen.

Quellen

Gemessene Benchmarks LLM-Inference-Geschwindigkeit erklärt So bewerten Sie einen Inference-Anbieter

Inferenzgeschwindigkeit

Die Anatomie einer Antwort

Welche Metrik für welchen Workload zählt

Ehrlich messen

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?