L'anatomia di una risposta

Ogni risposta di un LLM ha due fasi. Prima il modello elabora l'intero prompt in un passaggio parallelo (prefill) - questo determina il Time to First Token. Poi genera l'output un token alla volta (decode) - la velocità di questa fase è la latenza inter-token, solitamente riportata come token al secondo in output. Il tempo di risposta totale è approssimativamente il TTFT più il numero di token generati moltiplicato per il tempo per token.

Le fasi sollecitano l'hardware in modo diverso: il prefill è tipicamente limitato dal calcolo, mentre il decode è tipicamente limitato dalla larghezza di banda della memoria ai batch size comuni - per ogni nuovo token, l'hardware deve spostare i pesi del modello dalla memoria. Per questo lo stesso hardware può avere prestazioni di prefill eccellenti e una velocità di generazione mediocre.

Quale metrica conta per quale carico di lavoro

Per la chat interattiva, il TTFT domina la percezione - gli utenti notano il vuoto silenzioso prima che l'output inizi molto più della velocità di streaming. Per i voice agent, contano entrambi e i margini sono stretti. Per i carichi di lavoro agentici - coding agent, pipeline di tool-calling, workflow autonomi - domina la velocità di output: l'agente deve ricevere ogni token di ogni step prima di poter agire, quindi la velocità di generazione si accumula lungo tutta la catena.

Sulla nostra infrastruttura di Monaco di Baviera pubblichiamo tutti e tre i numeri per modello: per gpt-oss-120b, 388 ms di TTFT, 713 tok/s di Throughput in Output e 1,789 s end-to-end per una richiesta con input di 10.000 token / output di 1.000 token (p50 lato server).

Misurarla onestamente

I numeri di velocità sono confrontabili solo quando il carico di lavoro è dichiarato: la lunghezza del prompt cambia il TTFT, la lunghezza dell'output cambia l'equilibrio TTFT/generazione, e la concorrenza cambia tutto. La Latenza End-to-End include inoltre fattori oltre il modello - round-trip di rete (la distanza dal datacenter conta), overhead del gateway e tempo di coda su capacità condivisa - quindi i numeri misurati lato client differiscono sempre da quelli lato server. Benchmark indipendenti come Artificial Analysis pubblicano i loro carichi di lavoro esatti (test con 1k e 10k token di input, misurati 8 volte al giorno, riportati come mediane su 72 ore) - lo standard seguito anche dai nostri benchmark pubblicati.

Fonti

Letture correlate

Benchmark misurati La velocità di inference LLM spiegata Come valutare un provider di inference

Termini correlati

TTFT (Time to First Token)

Quanto tempo un utente attende tra l'invio di una richiesta e la visualizzazione del primo token della risposta.

Latenza Inter-Token (ITL)

L'intervallo medio di tempo tra token consecutivi durante la generazione - chiamato anche TPOT.

Token al Secondo

L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.

Prefill vs. Decode

Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.

Parametri

I pesi appresi di un modello - la misura approssimativa della sua dimensione e capacità, e il driver diretto di memoria, velocità e costo.

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

Velocità di Inferenza

L'anatomia di una risposta

Quale metrica conta per quale carico di lavoro

Misurarla onestamente

Fonti

Termini correlati

Pronto a Costruire il Futuro dell'AI in Europa?