Die Anatomie einer Antwort
Jede LLM-Antwort hat zwei Phasen. Zuerst verarbeitet das Modell Ihren gesamten Prompt in einem parallelen Durchlauf (Prefill) - das bestimmt die Zeit bis zum ersten Token. Dann generiert es die Ausgabe Token für Token (Decode) - die Geschwindigkeit dieser Phase ist die Inter-Token-Latenz, üblicherweise berichtet als Ausgabe-Token pro Sekunde. Die gesamte Antwortzeit ist näherungsweise TTFT plus die Anzahl der generierten Token multipliziert mit der Zeit pro Token.
Die Phasen beanspruchen die Hardware unterschiedlich: Der Prefill ist typischerweise rechengebunden, während der Decode bei üblichen Batch-Größen typischerweise durch die Speicherbandbreite begrenzt ist - für jedes neue Token muss die Hardware die Modellgewichte aus dem Speicher bewegen. Deshalb kann dieselbe Hardware eine exzellente Prefill-Performance und zugleich eine mittelmäßige Generierungsgeschwindigkeit haben.
Welche Metrik für welchen Workload zählt
Bei interaktivem Chat dominiert die TTFT die Wahrnehmung - Nutzer bemerken die stille Lücke vor Beginn der Ausgabe weit stärker als die Streaming-Geschwindigkeit. Bei Voice-Agents zählen beide, und die Budgets sind knapp. Bei agentischen Workloads - Coding-Agents, Tool-Calling-Pipelines, autonome Workflows - dominiert die Ausgabegeschwindigkeit: Der Agent muss jedes Token jedes Schritts erhalten, bevor er handeln kann, sodass sich die Generierungsgeschwindigkeit über die gesamte Kette aufsummiert.
Auf unserer Münchner Infrastruktur veröffentlichen wir alle drei Zahlen pro Modell: für gpt-oss-120b 388 ms TTFT, 713 tok/s Ausgabe-Durchsatz und 1,789 s End-to-End für eine Anfrage mit 10.000 Token Eingabe / 1.000 Token Ausgabe (serverseitig p50).
Ehrlich messen
Geschwindigkeitszahlen sind nur vergleichbar, wenn der Workload angegeben ist: Die Prompt-Länge verändert die TTFT, die Ausgabelänge verändert das Verhältnis von TTFT zu Generierung, und die Parallelität verändert alles. Die End-to-End-Latenz umfasst zusätzlich Faktoren jenseits des Modells - Netzwerk-Roundtrips (die Entfernung zum Rechenzentrum zählt), Gateway-Overhead und Warteschlangenzeit auf geteilter Kapazität -, sodass clientseitig gemessene Zahlen immer von serverseitigen abweichen. Unabhängige Benchmarks wie Artificial Analysis veröffentlichen ihre exakten Workloads (Tests mit 1k und 10k Eingabe-Token, 8-mal täglich gemessen, berichtet als 72-Stunden-Mediane) - der Standard, dem auch unsere eigenen veröffentlichten Benchmarks folgen.
Quellen
Verwandte Begriffe
TTFT (Zeit bis zum ersten Token)
Wie lange ein Nutzer zwischen dem Absenden einer Anfrage und dem Erscheinen des ersten Tokens der Antwort wartet.
Inter-Token-Latenz (ITL)
Der durchschnittliche Zeitabstand zwischen aufeinanderfolgenden Token während der Generierung - auch TPOT genannt.
Token pro Sekunde
Die Standardeinheit für die LLM-Generierungsgeschwindigkeit - und warum dieselbe Zahl zwei verschiedene Dinge bedeuten kann.
Prefill vs. Decode
Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.
Sehen Sie diese Metriken live auf unserer EU-Infrastruktur gemessen - echte Zahlen von Produktionshardware, unabhängig verifiziert.