Cosa misura davvero l'ITL

Dopo il primo token (misurato dal TTFT), il modello genera il resto della risposta un token alla volta - la fase di decode. L'ITL è l'intervallo medio tra quei token. Gli strumenti di benchmarking lo calcolano comunemente come Latenza End-to-End meno TTFT, divisa per il numero di token di output meno uno - escludendo esplicitamente il primo token così che l'ITL rifletta la pura velocità di generazione.

ITL e velocità di output sono due viste della stessa cosa: i token al secondo per richiesta si avvicinano a 1 diviso l'ITL man mano che l'output si allunga. I nostri 713 token al secondo misurati su gpt-oss-120b corrispondono a un intervallo inter-token medio di circa 1,4 millisecondi; 428 token al secondo su MiniMax M2.7 Ultraspeed corrispondono a circa 2,3 millisecondi.

Perché è importante

Per un essere umano che legge una risposta in chat, quasi ogni provider moderno è abbastanza veloce - le persone leggono a pochi token al secondo. L'ITL diventa decisiva nei carichi di lavoro agentici, dove è il software a consumare l'output: un coding agent in attesa di un diff da 3.000 token attende ogni singolo token. Con un intervallo di 30 millisecondi sono 90 secondi di generazione; a 1,4 millisecondi sono circa 4 secondi. Poiché gli agenti lavorano in loop - generano, eseguono strumenti, generano di nuovo - la latenza inter-token si accumula a ogni step della catena.

L'ITL rivela anche la qualità dell'infrastruttura sotto carico. La fase di decode è limitata dalla larghezza di banda della memoria, quindi quando un provider raggruppa molti utenti sullo stesso hardware, l'ITL di ciascun utente peggiora. Un'ITL stabile nell'arco della giornata è un segnale che la capacità è realmente provisionata, non sovrasottoscritta.

Sfumature da conoscere

Gli strumenti di benchmarking non concordano sulla formula esatta: alcuni escludono il primo token dalla media, altri lo includono - quindi i valori di ITL di strumenti diversi non sono direttamente confrontabili. L'ITL è inoltre una media: gli intervalli reali tra token variano durante una risposta man mano che la KV-cache cresce. Potreste anche vedere la metrica etichettata come TPOT (time per output token); i due termini sono usati in modo intercambiabile nella documentazione tecnica del settore.

Fonti

Letture correlate

Benchmark misurati La velocità di inference LLM spiegata Come valutare un provider di inference

Termini correlati

TTFT (Time to First Token)

Quanto tempo un utente attende tra l'invio di una richiesta e la visualizzazione del primo token della risposta.

Token al Secondo

L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.

Prefill vs. Decode

Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

Latenza Inter-Token (ITL)

Cosa misura davvero l'ITL

Perché è importante

Sfumature da conoscere

Fonti

Termini correlati

Pronto a Costruire il Futuro dell'AI in Europa?