Glossario
Metriche di Prestazione

Latenza Inter-Token (ITL)

La latenza inter-token (ITL) è il tempo medio tra token consecutivi mentre un LLM genera la sua risposta - nota anche come time per output token (TPOT). Determina quanto velocemente fluisce l'output in streaming dopo il primo token, ed è la controparte per singolo token dei token di output al secondo.

Cosa misura davvero l'ITL

Dopo il primo token (misurato dal TTFT), il modello genera il resto della risposta un token alla volta - la fase di decode. L'ITL è l'intervallo medio tra quei token. Gli strumenti di benchmarking lo calcolano comunemente come Latenza End-to-End meno TTFT, divisa per il numero di token di output meno uno - escludendo esplicitamente il primo token così che l'ITL rifletta la pura velocità di generazione.

ITL e velocità di output sono due viste della stessa cosa: i token al secondo per richiesta si avvicinano a 1 diviso l'ITL man mano che l'output si allunga. I nostri 713 token al secondo misurati su gpt-oss-120b corrispondono a un intervallo inter-token medio di circa 1,4 millisecondi; 428 token al secondo su MiniMax M2.7 Ultraspeed corrispondono a circa 2,3 millisecondi.

Perché è importante

Per un essere umano che legge una risposta in chat, quasi ogni provider moderno è abbastanza veloce - le persone leggono a pochi token al secondo. L'ITL diventa decisiva nei carichi di lavoro agentici, dove è il software a consumare l'output: un coding agent in attesa di un diff da 3.000 token attende ogni singolo token. Con un intervallo di 30 millisecondi sono 90 secondi di generazione; a 1,4 millisecondi sono circa 4 secondi. Poiché gli agenti lavorano in loop - generano, eseguono strumenti, generano di nuovo - la latenza inter-token si accumula a ogni step della catena.

L'ITL rivela anche la qualità dell'infrastruttura sotto carico. La fase di decode è limitata dalla larghezza di banda della memoria, quindi quando un provider raggruppa molti utenti sullo stesso hardware, l'ITL di ciascun utente peggiora. Un'ITL stabile nell'arco della giornata è un segnale che la capacità è realmente provisionata, non sovrasottoscritta.

Sfumature da conoscere

Gli strumenti di benchmarking non concordano sulla formula esatta: alcuni escludono il primo token dalla media, altri lo includono - quindi i valori di ITL di strumenti diversi non sono direttamente confrontabili. L'ITL è inoltre una media: gli intervalli reali tra token variano durante una risposta man mano che la KV-cache cresce. Potreste anche vedere la metrica etichettata come TPOT (time per output token); i due termini sono usati in modo intercambiabile nella documentazione tecnica del settore.

Fonti

Termini correlati

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

Pronto a Costruire il Futuro dell'AI in Europa?

Unisciti alle organizzazioni lungimiranti che implementano AI sovrana con prestazioni di livello mondiale