Ordliste
Performance-metrikker

Inter-Token Latency (ITL)

Inter-token latency (ITL) er den gennemsnitlige tid mellem på hinanden følgende tokens, mens en LLM genererer sit svar - også kendt som time per output token (TPOT). Den afgør, hvor hurtigt streamet output flyder efter den første token, og er per-token-modstykket til output tokens per sekund.

Hvad ITL faktisk måler

Efter den første token (målt med TTFT) genererer modellen resten af svaret én token ad gangen - decode-fasen. ITL er det gennemsnitlige interval mellem disse tokens. Benchmarking-værktøjer beregner det typisk som end-to-end latens minus TTFT, divideret med antallet af output-tokens minus én - hvor den første token eksplicit udelades, så ITL afspejler ren genereringshastighed.

ITL og output-hastighed er to perspektiver på det samme: per-request tokens per sekund nærmer sig 1 divideret med ITL, efterhånden som outputtet bliver længere. Vores målte 713 tokens per sekund på gpt-oss-120b svarer til et gennemsnitligt inter-token-interval på cirka 1,4 millisekunder; 428 tokens per sekund på MiniMax M2.7 Ultraspeed svarer til cirka 2,3 millisekunder.

Hvorfor det betyder noget

For et menneske, der læser et chatsvar, er næsten enhver moderne udbyder hurtig nok - folk læser med få tokens per sekund. ITL bliver afgørende i agentiske workloads, hvor software konsumerer outputtet: en coding-agent, der venter på en diff på 3.000 tokens, venter på hver eneste token. Ved et interval på 30 millisekunder er det 90 sekunders generering; ved 1,4 millisekunder er det cirka 4 sekunder. Fordi agenter kører i loops - generér, kør værktøjer, generér igen - forstærkes inter-token latency på tværs af hvert trin i kæden.

ITL afslører også infrastrukturkvalitet under belastning. Decode-fasen er bundet af hukommelsesbåndbredde, så når en udbyder batcher mange brugere på den samme hardware, forringes hver brugers ITL. Stabil ITL hen over dagen er et signal om, at kapaciteten reelt er provisioneret, ikke overtegnet.

Nuancer værd at kende

Benchmarking-værktøjer er uenige om den præcise formel: nogle udelader den første token fra gennemsnittet, andre inkluderer den - så ITL-tal fra forskellige værktøjer er ikke direkte sammenlignelige. ITL er også et gennemsnit: de reelle token-intervaller varierer i løbet af et svar, efterhånden som KV-cachen vokser. Du kan også se metrikken kaldet TPOT (time per output token); de to begreber bruges i flæng i branchens tekniske dokumentation.

Kilder

Relaterede begreber

Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.

Klar til at bygge fremtidens AI i Europa?

Slut dig til fremsynede organisationer, der deployer suveræn AI med performance i verdensklasse