Was ITL tatsächlich misst

Nach dem ersten Token (gemessen durch die TTFT) generiert das Modell den Rest der Antwort Token für Token - die Decode-Phase. ITL ist der durchschnittliche Abstand zwischen diesen Token. Benchmarking-Tools berechnen sie üblicherweise als End-to-End-Latenz minus TTFT, geteilt durch die Anzahl der Ausgabe-Token minus eins - das erste Token wird explizit ausgeschlossen, damit die ITL die reine Generierungsgeschwindigkeit widerspiegelt.

ITL und Ausgabegeschwindigkeit sind zwei Sichten auf dieselbe Sache: Die Token pro Sekunde pro Anfrage nähern sich 1 geteilt durch ITL, je länger die Ausgabe wird. Unsere gemessenen 713 Token pro Sekunde auf gpt-oss-120b entsprechen einem durchschnittlichen Inter-Token-Abstand von rund 1,4 Millisekunden; 428 Token pro Sekunde auf MiniMax M2.7 Ultraspeed entsprechen rund 2,3 Millisekunden.

Warum sie wichtig ist

Für einen Menschen, der eine Chat-Antwort liest, ist fast jeder moderne Anbieter schnell genug - Menschen lesen mit wenigen Token pro Sekunde. Entscheidend wird die ITL bei agentischen Workloads, bei denen Software die Ausgabe konsumiert: Ein Coding-Agent, der auf einen 3.000-Token-Diff wartet, wartet auf jedes einzelne Token. Bei einem Abstand von 30 Millisekunden sind das 90 Sekunden Generierung; bei 1,4 Millisekunden etwa 4 Sekunden. Weil Agenten in Schleifen arbeiten - generieren, Tools ausführen, erneut generieren -, summiert sich die Inter-Token-Latenz über jeden Schritt der Kette.

Die ITL offenbart außerdem die Infrastrukturqualität unter Last. Die Decode-Phase ist durch die Speicherbandbreite begrenzt: Wenn ein Anbieter viele Nutzer auf derselben Hardware zusammen batcht, verschlechtert sich die ITL jedes Nutzers. Eine stabile ITL über den Tag hinweg ist ein Signal dafür, dass Kapazität tatsächlich bereitgestellt und nicht überbucht ist.

Wissenswerte Feinheiten

Benchmarking-Tools sind sich über die genaue Formel uneinig: Manche schließen das erste Token aus dem Durchschnitt aus, andere beziehen es ein - ITL-Werte verschiedener Tools sind daher nicht direkt vergleichbar. ITL ist zudem ein Durchschnitt: Die tatsächlichen Token-Abstände variieren während einer Antwort, da der KV-Cache wächst. Die Metrik wird auch als TPOT (Time per Output Token) bezeichnet; beide Begriffe werden in der Engineering-Dokumentation der Branche synonym verwendet.

Quellen

Gemessene Benchmarks LLM-Inference-Geschwindigkeit erklärt So bewerten Sie einen Inference-Anbieter

Inter-Token-Latenz (ITL)

Was ITL tatsächlich misst

Warum sie wichtig ist

Wissenswerte Feinheiten

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?