Cosa misura davvero l'ITL
Dopo il primo token (misurato dal TTFT), il modello genera il resto della risposta un token alla volta - la fase di decode. L'ITL è l'intervallo medio tra quei token. Gli strumenti di benchmarking lo calcolano comunemente come Latenza End-to-End meno TTFT, divisa per il numero di token di output meno uno - escludendo esplicitamente il primo token così che l'ITL rifletta la pura velocità di generazione.
ITL e velocità di output sono due viste della stessa cosa: i token al secondo per richiesta si avvicinano a 1 diviso l'ITL man mano che l'output si allunga. I nostri 713 token al secondo misurati su gpt-oss-120b corrispondono a un intervallo inter-token medio di circa 1,4 millisecondi; 428 token al secondo su MiniMax M2.7 Ultraspeed corrispondono a circa 2,3 millisecondi.
Perché è importante
Per un essere umano che legge una risposta in chat, quasi ogni provider moderno è abbastanza veloce - le persone leggono a pochi token al secondo. L'ITL diventa decisiva nei carichi di lavoro agentici, dove è il software a consumare l'output: un coding agent in attesa di un diff da 3.000 token attende ogni singolo token. Con un intervallo di 30 millisecondi sono 90 secondi di generazione; a 1,4 millisecondi sono circa 4 secondi. Poiché gli agenti lavorano in loop - generano, eseguono strumenti, generano di nuovo - la latenza inter-token si accumula a ogni step della catena.
L'ITL rivela anche la qualità dell'infrastruttura sotto carico. La fase di decode è limitata dalla larghezza di banda della memoria, quindi quando un provider raggruppa molti utenti sullo stesso hardware, l'ITL di ciascun utente peggiora. Un'ITL stabile nell'arco della giornata è un segnale che la capacità è realmente provisionata, non sovrasottoscritta.
Sfumature da conoscere
Gli strumenti di benchmarking non concordano sulla formula esatta: alcuni escludono il primo token dalla media, altri lo includono - quindi i valori di ITL di strumenti diversi non sono direttamente confrontabili. L'ITL è inoltre una media: gli intervalli reali tra token variano durante una risposta man mano che la KV-cache cresce. Potreste anche vedere la metrica etichettata come TPOT (time per output token); i due termini sono usati in modo intercambiabile nella documentazione tecnica del settore.
Fonti
Termini correlati
TTFT (Time to First Token)
Quanto tempo un utente attende tra l'invio di una richiesta e la visualizzazione del primo token della risposta.
Token al Secondo
L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.
Prefill vs. Decode
Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.
Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.