Hvad TTFT faktisk måler
Når en forespørgsel ankommer, behandler modellen først hele prompten i ét parallelt gennemløb - prefill-fasen - for at opbygge sin interne tilstand (KV-cachen), før den kan udsende den første token. TTFT indfanger denne prompt-behandlingstid plus alt omkring den: tid brugt i udbyderens kø og netværkets rundtur. Standarddefinitioner i benchmarking måler den som tiden fra forespørgslen indsendes, til den første token modtages, inklusive request-kø, prefill og netværkslatens.
Fordi prefill behandler hver eneste input-token, skalerer TTFT med promptlængden: jo længere prompt, jo længere tid tager det modellen at producere sin første token. Under høj belastning bliver køen den dominerende faktor - hvis der ankommer flere forespørgsler, end systemet kan batche, stiger TTFT, selvom modellen i sig selv hverken er hurtigere eller langsommere.
Hvorfor det betyder noget
TTFT er "responsivitets"-metrikken. I chat-grænseflader afgør den, hvor længe skærmen forbliver tom, efter brugeren trykker enter - den største enkeltfaktor i, om en AI-applikation føles hurtig. For voice-agenter er TTFT endnu mere kritisk: en samtalepause på mere end et sekund føles ødelagt.
På vores produktionsinfrastruktur i München måler vi en p50 TTFT på 388 ms for gpt-oss-120b med et input på 10.000 tokens - server-side, på en lang prompt. Artificial Analysis, den uafhængige benchmarking-organisation, definerer TTFT på samme måde, som vi rapporterer den: tiden mellem at sende en forespørgsel og modtage den første token af svaret.
Nuancer værd at kende
Klientmålt TTFT og servermålt TTFT er forskellige: klienten ser køtid plus prefill plus netværk, mens server-side metrikker typisk adskiller køtid fra prefill-tid. Når du sammenligner udbydere, så tjek hvilken der rapporteres. For reasoning-modeller er der en yderligere skelnen - den første token kan være en "thinking"-token, så benchmarks sporer time to first token og time to first answer token separat.
Et komplet billede af svarhastighed kræver TTFT sammen med output-hastighed: den totale latens er cirka TTFT plus antallet af genererede tokens ganget med tiden per output-token. Og det, dine brugere faktisk oplever - end-to-end latency - inkluderer bidrag helt uden for modellen: netværksrundture (som rammer to gange, request og response, og vokser med den geografiske afstand til datacentret), gateway-overhead til autentificering og routing samt køtid på delt infrastruktur. En udbyder, der reklamerer med hurtig TTFT fra et andet kontinent, kan stadig føles langsom i Europa; det er en af grundene til, at vi publicerer server-side og bemærker, at client-side resultater varierer efter placering.
Kilder
Relaterede begreber
Inter-Token Latency (ITL)
Det gennemsnitlige tidsinterval mellem på hinanden følgende tokens under generering - også kaldet TPOT.
Inference-hastighed
Paraplybegrebet: TTFT, inter-token latency og throughput - og hvilken der betyder noget hvornår.
Prefill vs. Decode
LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.
Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.