Was ITL tatsächlich misst
Nach dem ersten Token (gemessen durch die TTFT) generiert das Modell den Rest der Antwort Token für Token - die Decode-Phase. ITL ist der durchschnittliche Abstand zwischen diesen Token. Benchmarking-Tools berechnen sie üblicherweise als End-to-End-Latenz minus TTFT, geteilt durch die Anzahl der Ausgabe-Token minus eins - das erste Token wird explizit ausgeschlossen, damit die ITL die reine Generierungsgeschwindigkeit widerspiegelt.
ITL und Ausgabegeschwindigkeit sind zwei Sichten auf dieselbe Sache: Die Token pro Sekunde pro Anfrage nähern sich 1 geteilt durch ITL, je länger die Ausgabe wird. Unsere gemessenen 713 Token pro Sekunde auf gpt-oss-120b entsprechen einem durchschnittlichen Inter-Token-Abstand von rund 1,4 Millisekunden; 428 Token pro Sekunde auf MiniMax M2.7 Ultraspeed entsprechen rund 2,3 Millisekunden.
Warum sie wichtig ist
Für einen Menschen, der eine Chat-Antwort liest, ist fast jeder moderne Anbieter schnell genug - Menschen lesen mit wenigen Token pro Sekunde. Entscheidend wird die ITL bei agentischen Workloads, bei denen Software die Ausgabe konsumiert: Ein Coding-Agent, der auf einen 3.000-Token-Diff wartet, wartet auf jedes einzelne Token. Bei einem Abstand von 30 Millisekunden sind das 90 Sekunden Generierung; bei 1,4 Millisekunden etwa 4 Sekunden. Weil Agenten in Schleifen arbeiten - generieren, Tools ausführen, erneut generieren -, summiert sich die Inter-Token-Latenz über jeden Schritt der Kette.
Die ITL offenbart außerdem die Infrastrukturqualität unter Last. Die Decode-Phase ist durch die Speicherbandbreite begrenzt: Wenn ein Anbieter viele Nutzer auf derselben Hardware zusammen batcht, verschlechtert sich die ITL jedes Nutzers. Eine stabile ITL über den Tag hinweg ist ein Signal dafür, dass Kapazität tatsächlich bereitgestellt und nicht überbucht ist.
Wissenswerte Feinheiten
Benchmarking-Tools sind sich über die genaue Formel uneinig: Manche schließen das erste Token aus dem Durchschnitt aus, andere beziehen es ein - ITL-Werte verschiedener Tools sind daher nicht direkt vergleichbar. ITL ist zudem ein Durchschnitt: Die tatsächlichen Token-Abstände variieren während einer Antwort, da der KV-Cache wächst. Die Metrik wird auch als TPOT (Time per Output Token) bezeichnet; beide Begriffe werden in der Engineering-Dokumentation der Branche synonym verwendet.
Quellen
Verwandte Begriffe
TTFT (Zeit bis zum ersten Token)
Wie lange ein Nutzer zwischen dem Absenden einer Anfrage und dem Erscheinen des ersten Tokens der Antwort wartet.
Token pro Sekunde
Die Standardeinheit für die LLM-Generierungsgeschwindigkeit - und warum dieselbe Zahl zwei verschiedene Dinge bedeuten kann.
Prefill vs. Decode
Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.
Sehen Sie diese Metriken live auf unserer EU-Infrastruktur gemessen - echte Zahlen von Produktionshardware, unabhängig verifiziert.