Hvad TTFT faktisk måler

Når en forespørgsel ankommer, behandler modellen først hele prompten i ét parallelt gennemløb - prefill-fasen - for at opbygge sin interne tilstand (KV-cachen), før den kan udsende den første token. TTFT indfanger denne prompt-behandlingstid plus alt omkring den: tid brugt i udbyderens kø og netværkets rundtur. Standarddefinitioner i benchmarking måler den som tiden fra forespørgslen indsendes, til den første token modtages, inklusive request-kø, prefill og netværkslatens.

Fordi prefill behandler hver eneste input-token, skalerer TTFT med promptlængden: jo længere prompt, jo længere tid tager det modellen at producere sin første token. Under høj belastning bliver køen den dominerende faktor - hvis der ankommer flere forespørgsler, end systemet kan batche, stiger TTFT, selvom modellen i sig selv hverken er hurtigere eller langsommere.

Hvorfor det betyder noget

TTFT er "responsivitets"-metrikken. I chat-grænseflader afgør den, hvor længe skærmen forbliver tom, efter brugeren trykker enter - den største enkeltfaktor i, om en AI-applikation føles hurtig. For voice-agenter er TTFT endnu mere kritisk: en samtalepause på mere end et sekund føles ødelagt.

På vores produktionsinfrastruktur i München måler vi en p50 TTFT på 388 ms for gpt-oss-120b med et input på 10.000 tokens - server-side, på en lang prompt. Artificial Analysis, den uafhængige benchmarking-organisation, definerer TTFT på samme måde, som vi rapporterer den: tiden mellem at sende en forespørgsel og modtage den første token af svaret.

Nuancer værd at kende

Klientmålt TTFT og servermålt TTFT er forskellige: klienten ser køtid plus prefill plus netværk, mens server-side metrikker typisk adskiller køtid fra prefill-tid. Når du sammenligner udbydere, så tjek hvilken der rapporteres. For reasoning-modeller er der en yderligere skelnen - den første token kan være en "thinking"-token, så benchmarks sporer time to first token og time to first answer token separat.

Et komplet billede af svarhastighed kræver TTFT sammen med output-hastighed: den totale latens er cirka TTFT plus antallet af genererede tokens ganget med tiden per output-token. Og det, dine brugere faktisk oplever - end-to-end latency - inkluderer bidrag helt uden for modellen: netværksrundture (som rammer to gange, request og response, og vokser med den geografiske afstand til datacentret), gateway-overhead til autentificering og routing samt køtid på delt infrastruktur. En udbyder, der reklamerer med hurtig TTFT fra et andet kontinent, kan stadig føles langsom i Europa; det er en af grundene til, at vi publicerer server-side og bemærker, at client-side resultater varierer efter placering.

Kilder

Videre læsning

Målte benchmarks LLM-inferenshastighed forklaret Sådan vurderer du en inferensudbyder

Relaterede begreber

Inter-Token Latency (ITL)

Det gennemsnitlige tidsinterval mellem på hinanden følgende tokens under generering - også kaldet TPOT.

Inference-hastighed

Paraplybegrebet: TTFT, inter-token latency og throughput - og hvilken der betyder noget hvornår.

Prefill vs. Decode

LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.

Context Window

Den maksimale mængde tekst, i tokens, en model kan overveje på én gang - prompt plus output. Længden former direkte inference-hastighed og -omkostning.

Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.

TTFT (Time to First Token)

Hvad TTFT faktisk måler

Hvorfor det betyder noget

Nuancer værd at kende

Kilder

Relaterede begreber

Klar til at bygge fremtidens AI i Europa?