Hvad ITL faktisk måler

Efter den første token (målt med TTFT) genererer modellen resten af svaret én token ad gangen - decode-fasen. ITL er det gennemsnitlige interval mellem disse tokens. Benchmarking-værktøjer beregner det typisk som end-to-end latens minus TTFT, divideret med antallet af output-tokens minus én - hvor den første token eksplicit udelades, så ITL afspejler ren genereringshastighed.

ITL og output-hastighed er to perspektiver på det samme: per-request tokens per sekund nærmer sig 1 divideret med ITL, efterhånden som outputtet bliver længere. Vores målte 713 tokens per sekund på gpt-oss-120b svarer til et gennemsnitligt inter-token-interval på cirka 1,4 millisekunder; 428 tokens per sekund på MiniMax M2.7 Ultraspeed svarer til cirka 2,3 millisekunder.

Hvorfor det betyder noget

For et menneske, der læser et chatsvar, er næsten enhver moderne udbyder hurtig nok - folk læser med få tokens per sekund. ITL bliver afgørende i agentiske workloads, hvor software konsumerer outputtet: en coding-agent, der venter på en diff på 3.000 tokens, venter på hver eneste token. Ved et interval på 30 millisekunder er det 90 sekunders generering; ved 1,4 millisekunder er det cirka 4 sekunder. Fordi agenter kører i loops - generér, kør værktøjer, generér igen - forstærkes inter-token latency på tværs af hvert trin i kæden.

ITL afslører også infrastrukturkvalitet under belastning. Decode-fasen er bundet af hukommelsesbåndbredde, så når en udbyder batcher mange brugere på den samme hardware, forringes hver brugers ITL. Stabil ITL hen over dagen er et signal om, at kapaciteten reelt er provisioneret, ikke overtegnet.

Nuancer værd at kende

Benchmarking-værktøjer er uenige om den præcise formel: nogle udelader den første token fra gennemsnittet, andre inkluderer den - så ITL-tal fra forskellige værktøjer er ikke direkte sammenlignelige. ITL er også et gennemsnit: de reelle token-intervaller varierer i løbet af et svar, efterhånden som KV-cachen vokser. Du kan også se metrikken kaldet TPOT (time per output token); de to begreber bruges i flæng i branchens tekniske dokumentation.

Kilder

Videre læsning

Målte benchmarks LLM-inferenshastighed forklaret Sådan vurderer du en inferensudbyder

Relaterede begreber

TTFT (Time to First Token)

Hvor længe en bruger venter mellem at sende en forespørgsel og se den første token af svaret.

Tokens per sekund

Standardenheden for LLM-genereringshastighed - og hvorfor det samme tal kan betyde to forskellige ting.

Prefill vs. Decode

LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.

Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.

Inter-Token Latency (ITL)

Hvad ITL faktisk måler

Hvorfor det betyder noget

Nuancer værd at kende

Kilder

Relaterede begreber

Klar til at bygge fremtidens AI i Europa?