Glossar
Performance-Metriken

TTFT (Zeit bis zum ersten Token)

Die Zeit bis zum ersten Token (Time to First Token, TTFT) ist die Zeitspanne zwischen dem Absenden einer Anfrage an eine LLM-API und dem Empfang des ersten Tokens der Antwort. Sie misst, wie lange ein Nutzer wartet, bevor die Ausgabe zu erscheinen beginnt, und wird von der Prompt-Verarbeitung (Prefill), dem Anstehen der Anfrage in der Warteschlange und der Netzwerklatenz bestimmt.

Was TTFT tatsächlich misst

Wenn eine Anfrage eintrifft, verarbeitet das Modell zunächst den gesamten Prompt in einem einzigen parallelen Durchlauf - der Prefill-Phase -, um seinen internen Zustand (den KV-Cache) aufzubauen, bevor es das erste Token ausgeben kann. TTFT erfasst diese Prompt-Verarbeitungszeit plus alles drumherum: die Wartezeit in der Warteschlange des Anbieters und den Netzwerk-Roundtrip. Standard-Benchmark-Definitionen messen sie als die Zeit vom Absenden der Anfrage bis zum Empfang des ersten Tokens, einschließlich Warteschlange, Prefill und Netzwerklatenz.

Da der Prefill jedes Eingabe-Token verarbeitet, skaliert TTFT mit der Prompt-Länge: Je länger der Prompt, desto länger braucht das Modell bis zum ersten Token. Unter hoher Last wird die Warteschlange zum dominierenden Faktor - treffen mehr Anfragen ein, als das System batchen kann, steigt die TTFT, obwohl das Modell selbst weder schneller noch langsamer ist.

Warum sie wichtig ist

TTFT ist die "Reaktionsfähigkeits"-Metrik. In Chat-Oberflächen bestimmt sie, wie lange der Bildschirm leer bleibt, nachdem der Nutzer Enter gedrückt hat - der größte Einzelfaktor dafür, ob sich eine KI-Anwendung schnell anfühlt. Für Voice-Agents ist TTFT noch kritischer: Eine Gesprächspause von mehr als einer Sekunde wirkt wie ein Defekt.

Auf unserer Produktionsinfrastruktur in München messen wir eine p50-TTFT von 388 ms für gpt-oss-120b bei einer Eingabe von 10.000 Token - serverseitig, bei einem langen Prompt. Artificial Analysis, die unabhängige Benchmarking-Organisation, definiert TTFT genauso, wie wir sie berichten: als die Zeit zwischen dem Absenden einer Anfrage und dem Empfang des ersten Tokens der Antwort.

Wissenswerte Feinheiten

Clientseitig und serverseitig gemessene TTFT unterscheiden sich: Der Client sieht Warteschlangenzeit plus Prefill plus Netzwerk, während serverseitige Metriken die Warteschlangenzeit typischerweise von der Prefill-Zeit trennen. Prüfen Sie beim Vergleich von Anbietern, welche Variante berichtet wird. Bei Reasoning-Modellen gibt es eine weitere Unterscheidung - das erste Token kann ein "Thinking"-Token sein, weshalb Benchmarks die Zeit bis zum ersten Token und die Zeit bis zum ersten Antwort-Token getrennt erfassen.

Ein vollständiges Bild der Antwortgeschwindigkeit braucht TTFT zusammen mit der Ausgabegeschwindigkeit: Die Gesamtlatenz ist näherungsweise TTFT plus die Anzahl der generierten Token multipliziert mit der Zeit pro Ausgabe-Token. Und was Ihre Nutzer tatsächlich erleben - die End-to-End-Latenz - umfasst Faktoren, die ganz außerhalb des Modells liegen: Netzwerk-Roundtrips (die doppelt anfallen, bei Anfrage und Antwort, und mit der geografischen Entfernung zum Rechenzentrum wachsen), Gateway-Overhead für Authentifizierung und Routing sowie Warteschlangenzeit auf geteilter Infrastruktur. Ein Anbieter, der mit schneller TTFT von einem anderen Kontinent wirbt, kann sich in Europa trotzdem langsam anfühlen; das ist ein Grund, warum wir serverseitig publizieren und darauf hinweisen, dass clientseitige Ergebnisse je nach Standort variieren.

Quellen

Verwandte Begriffe

Sehen Sie diese Metriken live auf unserer EU-Infrastruktur gemessen - echte Zahlen von Produktionshardware, unabhängig verifiziert.

Bereit, die Zukunft der AI in Europa zu gestalten?

Schließen Sie sich zukunftsorientierten Unternehmen an, die Souveräne KI mit Weltklasse-Performance einsetzen