Was TTFT tatsächlich misst

Wenn eine Anfrage eintrifft, verarbeitet das Modell zunächst den gesamten Prompt in einem einzigen parallelen Durchlauf - der Prefill-Phase -, um seinen internen Zustand (den KV-Cache) aufzubauen, bevor es das erste Token ausgeben kann. TTFT erfasst diese Prompt-Verarbeitungszeit plus alles drumherum: die Wartezeit in der Warteschlange des Anbieters und den Netzwerk-Roundtrip. Standard-Benchmark-Definitionen messen sie als die Zeit vom Absenden der Anfrage bis zum Empfang des ersten Tokens, einschließlich Warteschlange, Prefill und Netzwerklatenz.

Da der Prefill jedes Eingabe-Token verarbeitet, skaliert TTFT mit der Prompt-Länge: Je länger der Prompt, desto länger braucht das Modell bis zum ersten Token. Unter hoher Last wird die Warteschlange zum dominierenden Faktor - treffen mehr Anfragen ein, als das System batchen kann, steigt die TTFT, obwohl das Modell selbst weder schneller noch langsamer ist.

Warum sie wichtig ist

TTFT ist die "Reaktionsfähigkeits"-Metrik. In Chat-Oberflächen bestimmt sie, wie lange der Bildschirm leer bleibt, nachdem der Nutzer Enter gedrückt hat - der größte Einzelfaktor dafür, ob sich eine KI-Anwendung schnell anfühlt. Für Voice-Agents ist TTFT noch kritischer: Eine Gesprächspause von mehr als einer Sekunde wirkt wie ein Defekt.

Auf unserer Produktionsinfrastruktur in München messen wir eine p50-TTFT von 388 ms für gpt-oss-120b bei einer Eingabe von 10.000 Token - serverseitig, bei einem langen Prompt. Artificial Analysis, die unabhängige Benchmarking-Organisation, definiert TTFT genauso, wie wir sie berichten: als die Zeit zwischen dem Absenden einer Anfrage und dem Empfang des ersten Tokens der Antwort.

Wissenswerte Feinheiten

Clientseitig und serverseitig gemessene TTFT unterscheiden sich: Der Client sieht Warteschlangenzeit plus Prefill plus Netzwerk, während serverseitige Metriken die Warteschlangenzeit typischerweise von der Prefill-Zeit trennen. Prüfen Sie beim Vergleich von Anbietern, welche Variante berichtet wird. Bei Reasoning-Modellen gibt es eine weitere Unterscheidung - das erste Token kann ein "Thinking"-Token sein, weshalb Benchmarks die Zeit bis zum ersten Token und die Zeit bis zum ersten Antwort-Token getrennt erfassen.

Ein vollständiges Bild der Antwortgeschwindigkeit braucht TTFT zusammen mit der Ausgabegeschwindigkeit: Die Gesamtlatenz ist näherungsweise TTFT plus die Anzahl der generierten Token multipliziert mit der Zeit pro Ausgabe-Token. Und was Ihre Nutzer tatsächlich erleben - die End-to-End-Latenz - umfasst Faktoren, die ganz außerhalb des Modells liegen: Netzwerk-Roundtrips (die doppelt anfallen, bei Anfrage und Antwort, und mit der geografischen Entfernung zum Rechenzentrum wachsen), Gateway-Overhead für Authentifizierung und Routing sowie Warteschlangenzeit auf geteilter Infrastruktur. Ein Anbieter, der mit schneller TTFT von einem anderen Kontinent wirbt, kann sich in Europa trotzdem langsam anfühlen; das ist ein Grund, warum wir serverseitig publizieren und darauf hinweisen, dass clientseitige Ergebnisse je nach Standort variieren.

Quellen

Gemessene Benchmarks LLM-Inference-Geschwindigkeit erklärt So bewerten Sie einen Inference-Anbieter

TTFT (Zeit bis zum ersten Token)

Was TTFT tatsächlich misst

Warum sie wichtig ist

Wissenswerte Feinheiten

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?