Glossario
Metriche di Prestazione

Velocità di Inferenza

La velocità di inferenza descrive quanto rapidamente un sistema LLM trasforma una richiesta in una risposta completa. Non è un singolo numero: si scompone in Time to First Token (TTFT), latenza inter-token (ITL) e Latenza End-to-End - e quale metrica conta dipende dal fatto che a consumare l'output sia un essere umano o una macchina.

L'anatomia di una risposta

Ogni risposta di un LLM ha due fasi. Prima il modello elabora l'intero prompt in un passaggio parallelo (prefill) - questo determina il Time to First Token. Poi genera l'output un token alla volta (decode) - la velocità di questa fase è la latenza inter-token, solitamente riportata come token al secondo in output. Il tempo di risposta totale è approssimativamente il TTFT più il numero di token generati moltiplicato per il tempo per token.

Le fasi sollecitano l'hardware in modo diverso: il prefill è tipicamente limitato dal calcolo, mentre il decode è tipicamente limitato dalla larghezza di banda della memoria ai batch size comuni - per ogni nuovo token, l'hardware deve spostare i pesi del modello dalla memoria. Per questo lo stesso hardware può avere prestazioni di prefill eccellenti e una velocità di generazione mediocre.

Quale metrica conta per quale carico di lavoro

Per la chat interattiva, il TTFT domina la percezione - gli utenti notano il vuoto silenzioso prima che l'output inizi molto più della velocità di streaming. Per i voice agent, contano entrambi e i margini sono stretti. Per i carichi di lavoro agentici - coding agent, pipeline di tool-calling, workflow autonomi - domina la velocità di output: l'agente deve ricevere ogni token di ogni step prima di poter agire, quindi la velocità di generazione si accumula lungo tutta la catena.

Sulla nostra infrastruttura di Monaco di Baviera pubblichiamo tutti e tre i numeri per modello: per gpt-oss-120b, 388 ms di TTFT, 713 tok/s di Throughput in Output e 1,789 s end-to-end per una richiesta con input di 10.000 token / output di 1.000 token (p50 lato server).

Misurarla onestamente

I numeri di velocità sono confrontabili solo quando il carico di lavoro è dichiarato: la lunghezza del prompt cambia il TTFT, la lunghezza dell'output cambia l'equilibrio TTFT/generazione, e la concorrenza cambia tutto. La Latenza End-to-End include inoltre fattori oltre il modello - round-trip di rete (la distanza dal datacenter conta), overhead del gateway e tempo di coda su capacità condivisa - quindi i numeri misurati lato client differiscono sempre da quelli lato server. Benchmark indipendenti come Artificial Analysis pubblicano i loro carichi di lavoro esatti (test con 1k e 10k token di input, misurati 8 volte al giorno, riportati come mediane su 72 ore) - lo standard seguito anche dai nostri benchmark pubblicati.

Fonti

Termini correlati

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

Pronto a Costruire il Futuro dell'AI in Europa?

Unisciti alle organizzazioni lungimiranti che implementano AI sovrana con prestazioni di livello mondiale