Velocità per richiesta: ciò che riportano i benchmark

Quando benchmark indipendenti come Artificial Analysis riportano la "output speed", misurano il numero medio di token ricevuti al secondo dopo l'arrivo del primo token - una singola richiesta, con il Time to First Token deliberatamente escluso. Questo è il numero che determina l'esperienza utente: quanto velocemente la risposta arriva in streaming.

Sulla nostra infrastruttura EU misuriamo un Throughput in Output per richiesta di 713 tok/s su gpt-oss-120b e 428 tok/s su MiniMax M2.7 Ultraspeed (p50, input di 10.000 token, richiesta singola). Per la confrontabilità tra modelli con tokenizer diversi, Artificial Analysis standardizza tutte le metriche di velocità in token OpenAI contati con il tokenizer tiktoken o200k_base.

Throughput di sistema: ciò da cui dipende l'economia dei provider

Il secondo significato è il throughput aggregato: il totale dei token che un sistema produce al secondo su tutte le richieste concorrenti. La letteratura di benchmarking li distingue esplicitamente come "TPS per user" rispetto a "TPS per system". Un server GPU potrebbe fornire 30 tok/s a ciascuno di 100 utenti concorrenti - 3.000 tok/s di throughput di sistema, ma un'esperienza molto più lenta per singola richiesta.

Questa distinzione è il punto in cui le dichiarazioni di velocità diventano ambigue: un vendor può pubblicizzare in modo veritiero migliaia di token al secondo mentre ogni singola richiesta procede a rilento. Quando vedete un valore di tok/s, la prima domanda da porsi è: per richiesta, o sull'intero sistema?

Come leggere una dichiarazione di tok/s

Verificate tre cose: se è per richiesta o aggregata, se il TTFT è incluso o escluso (Artificial Analysis lo esclude per definizione), e la forma del carico di lavoro - lunghezza del prompt e lunghezza dell'output cambiano entrambe il numero. I nostri benchmark pubblicati dichiarano tutti e tre gli elementi: per richiesta, p50 lato server, 10.000 token di input / 1.000 di output.

Fonti

Letture correlate

Benchmark misurati La velocità di inference LLM spiegata Come valutare un provider di inference

Termini correlati

Throughput (Serving LLM)

Token al secondo in due sensi: Throughput in Output per richiesta vs. capacità a livello di sistema - e come il batching scambia l'uno con l'altra.

Latenza Inter-Token (ITL)

L'intervallo medio di tempo tra token consecutivi durante la generazione - chiamato anche TPOT.

Velocità di Inferenza

Il termine ombrello: TTFT, latenza inter-token e throughput - e quale conta in quale situazione.

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

Token al Secondo

Velocità per richiesta: ciò che riportano i benchmark

Throughput di sistema: ciò da cui dipende l'economia dei provider

Come leggere una dichiarazione di tok/s

Fonti

Termini correlati

Pronto a Costruire il Futuro dell'AI in Europa?