Glossario
Metriche di Prestazione

Token al Secondo

I token al secondo (tok/s) misurano quanti token un sistema LLM produce ogni secondo. È l'unità standard della velocità di inferenza - ma la stessa unità descrive due misurazioni diverse: la velocità di output per richiesta (ciò che sperimenta un singolo utente) e il throughput di sistema (tutto ciò che l'hardware produce per tutti gli utenti combinati).

Velocità per richiesta: ciò che riportano i benchmark

Quando benchmark indipendenti come Artificial Analysis riportano la "output speed", misurano il numero medio di token ricevuti al secondo dopo l'arrivo del primo token - una singola richiesta, con il Time to First Token deliberatamente escluso. Questo è il numero che determina l'esperienza utente: quanto velocemente la risposta arriva in streaming.

Sulla nostra infrastruttura EU misuriamo un Throughput in Output per richiesta di 713 tok/s su gpt-oss-120b e 428 tok/s su MiniMax M2.7 Ultraspeed (p50, input di 10.000 token, richiesta singola). Per la confrontabilità tra modelli con tokenizer diversi, Artificial Analysis standardizza tutte le metriche di velocità in token OpenAI contati con il tokenizer tiktoken o200k_base.

Throughput di sistema: ciò da cui dipende l'economia dei provider

Il secondo significato è il throughput aggregato: il totale dei token che un sistema produce al secondo su tutte le richieste concorrenti. La letteratura di benchmarking li distingue esplicitamente come "TPS per user" rispetto a "TPS per system". Un server GPU potrebbe fornire 30 tok/s a ciascuno di 100 utenti concorrenti - 3.000 tok/s di throughput di sistema, ma un'esperienza molto più lenta per singola richiesta.

Questa distinzione è il punto in cui le dichiarazioni di velocità diventano ambigue: un vendor può pubblicizzare in modo veritiero migliaia di token al secondo mentre ogni singola richiesta procede a rilento. Quando vedete un valore di tok/s, la prima domanda da porsi è: per richiesta, o sull'intero sistema?

Come leggere una dichiarazione di tok/s

Verificate tre cose: se è per richiesta o aggregata, se il TTFT è incluso o escluso (Artificial Analysis lo esclude per definizione), e la forma del carico di lavoro - lunghezza del prompt e lunghezza dell'output cambiano entrambe il numero. I nostri benchmark pubblicati dichiarano tutti e tre gli elementi: per richiesta, p50 lato server, 10.000 token di input / 1.000 di output.

Fonti

Termini correlati

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

Pronto a Costruire il Futuro dell'AI in Europa?

Unisciti alle organizzazioni lungimiranti che implementano AI sovrana con prestazioni di livello mondiale