Was TTFT tatsächlich misst
Wenn eine Anfrage eintrifft, verarbeitet das Modell zunächst den gesamten Prompt in einem einzigen parallelen Durchlauf - der Prefill-Phase -, um seinen internen Zustand (den KV-Cache) aufzubauen, bevor es das erste Token ausgeben kann. TTFT erfasst diese Prompt-Verarbeitungszeit plus alles drumherum: die Wartezeit in der Warteschlange des Anbieters und den Netzwerk-Roundtrip. Standard-Benchmark-Definitionen messen sie als die Zeit vom Absenden der Anfrage bis zum Empfang des ersten Tokens, einschließlich Warteschlange, Prefill und Netzwerklatenz.
Da der Prefill jedes Eingabe-Token verarbeitet, skaliert TTFT mit der Prompt-Länge: Je länger der Prompt, desto länger braucht das Modell bis zum ersten Token. Unter hoher Last wird die Warteschlange zum dominierenden Faktor - treffen mehr Anfragen ein, als das System batchen kann, steigt die TTFT, obwohl das Modell selbst weder schneller noch langsamer ist.
Warum sie wichtig ist
TTFT ist die "Reaktionsfähigkeits"-Metrik. In Chat-Oberflächen bestimmt sie, wie lange der Bildschirm leer bleibt, nachdem der Nutzer Enter gedrückt hat - der größte Einzelfaktor dafür, ob sich eine KI-Anwendung schnell anfühlt. Für Voice-Agents ist TTFT noch kritischer: Eine Gesprächspause von mehr als einer Sekunde wirkt wie ein Defekt.
Auf unserer Produktionsinfrastruktur in München messen wir eine p50-TTFT von 388 ms für gpt-oss-120b bei einer Eingabe von 10.000 Token - serverseitig, bei einem langen Prompt. Artificial Analysis, die unabhängige Benchmarking-Organisation, definiert TTFT genauso, wie wir sie berichten: als die Zeit zwischen dem Absenden einer Anfrage und dem Empfang des ersten Tokens der Antwort.
Wissenswerte Feinheiten
Clientseitig und serverseitig gemessene TTFT unterscheiden sich: Der Client sieht Warteschlangenzeit plus Prefill plus Netzwerk, während serverseitige Metriken die Warteschlangenzeit typischerweise von der Prefill-Zeit trennen. Prüfen Sie beim Vergleich von Anbietern, welche Variante berichtet wird. Bei Reasoning-Modellen gibt es eine weitere Unterscheidung - das erste Token kann ein "Thinking"-Token sein, weshalb Benchmarks die Zeit bis zum ersten Token und die Zeit bis zum ersten Antwort-Token getrennt erfassen.
Ein vollständiges Bild der Antwortgeschwindigkeit braucht TTFT zusammen mit der Ausgabegeschwindigkeit: Die Gesamtlatenz ist näherungsweise TTFT plus die Anzahl der generierten Token multipliziert mit der Zeit pro Ausgabe-Token. Und was Ihre Nutzer tatsächlich erleben - die End-to-End-Latenz - umfasst Faktoren, die ganz außerhalb des Modells liegen: Netzwerk-Roundtrips (die doppelt anfallen, bei Anfrage und Antwort, und mit der geografischen Entfernung zum Rechenzentrum wachsen), Gateway-Overhead für Authentifizierung und Routing sowie Warteschlangenzeit auf geteilter Infrastruktur. Ein Anbieter, der mit schneller TTFT von einem anderen Kontinent wirbt, kann sich in Europa trotzdem langsam anfühlen; das ist ein Grund, warum wir serverseitig publizieren und darauf hinweisen, dass clientseitige Ergebnisse je nach Standort variieren.
Quellen
Verwandte Begriffe
Inter-Token-Latenz (ITL)
Der durchschnittliche Zeitabstand zwischen aufeinanderfolgenden Token während der Generierung - auch TPOT genannt.
Inferenzgeschwindigkeit
Der Oberbegriff: TTFT, Inter-Token-Latenz und Durchsatz - und welche Metrik wann zählt.
Prefill vs. Decode
Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.
Sehen Sie diese Metriken live auf unserer EU-Infrastruktur gemessen - echte Zahlen von Produktionshardware, unabhängig verifiziert.