Cosa misura davvero il TTFT

Quando arriva una richiesta, il modello elabora prima l'intero prompt in un singolo passaggio parallelo - la fase di prefill - per costruire il suo stato interno (la KV-cache) prima di poter emettere il primo token. Il TTFT cattura questo tempo di elaborazione del prompt, più tutto ciò che lo circonda: il tempo trascorso in attesa nella coda del provider e il round-trip di rete. Le definizioni standard di benchmarking lo misurano come il tempo dall'invio della query alla ricezione del primo token, inclusi accodamento della richiesta, prefill e latenza di rete.

Poiché il prefill elabora ogni token di input, il TTFT scala con la lunghezza del prompt: più lungo è il prompt, più tempo impiega il modello a produrre il primo token. Sotto carico elevato, l'accodamento diventa il fattore dominante - se arrivano più richieste di quante il sistema possa raggruppare in batch, il TTFT sale anche se il modello in sé non è né più veloce né più lento.

Perché è importante

Il TTFT è la metrica della "reattività". Nelle interfacce chat, determina quanto a lungo lo schermo rimane vuoto dopo che l'utente preme invio - il singolo fattore più importante nel determinare se un'applicazione AI sembra veloce. Per i voice agent, il TTFT è ancora più critico: una pausa conversazionale superiore a un secondo sembra un malfunzionamento.

Sulla nostra infrastruttura di produzione a Monaco di Baviera misuriamo un TTFT p50 di 388 ms per gpt-oss-120b con un input di 10.000 token - lato server, su un prompt lungo. Artificial Analysis, l'organizzazione di benchmarking indipendente, definisce il TTFT nello stesso modo in cui lo riportiamo noi: il tempo tra l'invio di una richiesta e la ricezione del primo token della risposta.

Sfumature da conoscere

Il TTFT misurato lato client e quello misurato lato server differiscono: il client vede tempo di coda più prefill più rete, mentre le metriche lato server tipicamente separano il tempo di coda dal tempo di prefill. Quando si confrontano provider, verificate quale dei due viene riportato. Per i modelli di reasoning c'è un'ulteriore distinzione - il primo token può essere un token di "thinking", quindi i benchmark tracciano separatamente il tempo al primo token e il tempo al primo token di risposta.

Un quadro completo della velocità di risposta richiede il TTFT insieme alla velocità di output: la latenza totale è approssimativamente il TTFT più il numero di token generati moltiplicato per il tempo per token di output. E ciò che i vostri utenti sperimentano davvero - la Latenza End-to-End - include fattori del tutto esterni al modello: i round-trip di rete (che incidono due volte, richiesta e risposta, e crescono con la distanza geografica dal datacenter), l'overhead del gateway per autenticazione e routing, e il tempo di coda su infrastruttura condivisa. Un provider che pubblicizza un TTFT veloce da un altro continente può comunque risultare lento in Europa; questo è uno dei motivi per cui pubblichiamo dati lato server e segnaliamo che i risultati lato client variano in base alla posizione.

Fonti

Letture correlate

Benchmark misurati La velocità di inference LLM spiegata Come valutare un provider di inference

Termini correlati

Latenza Inter-Token (ITL)

L'intervallo medio di tempo tra token consecutivi durante la generazione - chiamato anche TPOT.

Velocità di Inferenza

Il termine ombrello: TTFT, latenza inter-token e throughput - e quale conta in quale situazione.

Prefill vs. Decode

Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.

Context Window

La quantità massima di testo, in token, che un modello può considerare in una volta - prompt più output. La sua lunghezza plasma direttamente velocità e costo dell'inferenza.

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

TTFT (Time to First Token)

Cosa misura davvero il TTFT

Perché è importante

Sfumature da conoscere

Fonti

Termini correlati

Pronto a Costruire il Futuro dell'AI in Europa?