Per-request hastighed: hvad benchmarks rapporterer
Når uafhængige benchmarks som Artificial Analysis rapporterer "output speed", måler de det gennemsnitlige antal tokens modtaget per sekund, efter den første token ankommer - en enkelt forespørgsel, hvor time to first token bevidst er udeladt. Det er det tal, der afgør brugeroplevelsen: hvor hurtigt svaret streames.
På vores EU-infrastruktur måler vi en per-request output throughput på 713 tok/s på gpt-oss-120b og 428 tok/s på MiniMax M2.7 Ultraspeed (p50, input på 10.000 tokens, enkelt forespørgsel). For sammenlignelighed på tværs af modeller med forskellige tokenizers standardiserer Artificial Analysis alle hastighedsmetrikker i OpenAI-tokens talt med tiktoken o200k_base-tokenizeren.
System-throughput: hvad udbydernes økonomi afhænger af
Den anden betydning er aggregeret throughput: det samlede antal tokens, et system producerer per sekund på tværs af alle samtidige forespørgsler. Benchmarking-litteraturen skelner eksplicit mellem disse som "TPS per user" versus "TPS per system". En GPU-server kan levere 30 tok/s til hver af 100 samtidige brugere - 3.000 tok/s i system-throughput, men en langt langsommere oplevelse per forespørgsel.
Denne skelnen er der, hvor hastighedspåstande bliver uklare: en leverandør kan sandfærdigt reklamere med tusindvis af tokens per sekund, mens hver enkelt forespørgsel kryber afsted. Når du ser et tok/s-tal, er det første spørgsmål: per forespørgsel eller på tværs af hele systemet?
Sådan læser du en tok/s-påstand
Tjek tre ting: om det er per-request eller aggregeret, om TTFT er inkluderet eller udeladt (Artificial Analysis udelader den per definition), og workload-formen - både promptlængde og outputlængde ændrer tallet. Vores publicerede benchmarks angiver alle tre: per-request, server-side p50, 10.000 input / 1.000 output tokens.
Kilder
Relaterede begreber
Throughput (LLM-serving)
Tokens per sekund i to betydninger: per-request output throughput vs. systemdækkende kapacitet - og hvordan batching bytter det ene for det andet.
Inter-Token Latency (ITL)
Det gennemsnitlige tidsinterval mellem på hinanden følgende tokens under generering - også kaldet TPOT.
Inference-hastighed
Paraplybegrebet: TTFT, inter-token latency og throughput - og hvilken der betyder noget hvornår.
Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.