Per-request hastighed: hvad benchmarks rapporterer

Når uafhængige benchmarks som Artificial Analysis rapporterer "output speed", måler de det gennemsnitlige antal tokens modtaget per sekund, efter den første token ankommer - en enkelt forespørgsel, hvor time to first token bevidst er udeladt. Det er det tal, der afgør brugeroplevelsen: hvor hurtigt svaret streames.

På vores EU-infrastruktur måler vi en per-request output throughput på 713 tok/s på gpt-oss-120b og 428 tok/s på MiniMax M2.7 Ultraspeed (p50, input på 10.000 tokens, enkelt forespørgsel). For sammenlignelighed på tværs af modeller med forskellige tokenizers standardiserer Artificial Analysis alle hastighedsmetrikker i OpenAI-tokens talt med tiktoken o200k_base-tokenizeren.

System-throughput: hvad udbydernes økonomi afhænger af

Den anden betydning er aggregeret throughput: det samlede antal tokens, et system producerer per sekund på tværs af alle samtidige forespørgsler. Benchmarking-litteraturen skelner eksplicit mellem disse som "TPS per user" versus "TPS per system". En GPU-server kan levere 30 tok/s til hver af 100 samtidige brugere - 3.000 tok/s i system-throughput, men en langt langsommere oplevelse per forespørgsel.

Denne skelnen er der, hvor hastighedspåstande bliver uklare: en leverandør kan sandfærdigt reklamere med tusindvis af tokens per sekund, mens hver enkelt forespørgsel kryber afsted. Når du ser et tok/s-tal, er det første spørgsmål: per forespørgsel eller på tværs af hele systemet?

Sådan læser du en tok/s-påstand

Tjek tre ting: om det er per-request eller aggregeret, om TTFT er inkluderet eller udeladt (Artificial Analysis udelader den per definition), og workload-formen - både promptlængde og outputlængde ændrer tallet. Vores publicerede benchmarks angiver alle tre: per-request, server-side p50, 10.000 input / 1.000 output tokens.

Kilder

Videre læsning

Målte benchmarks LLM-inferenshastighed forklaret Sådan vurderer du en inferensudbyder

Relaterede begreber

Throughput (LLM-serving)

Tokens per sekund i to betydninger: per-request output throughput vs. systemdækkende kapacitet - og hvordan batching bytter det ene for det andet.

Inter-Token Latency (ITL)

Det gennemsnitlige tidsinterval mellem på hinanden følgende tokens under generering - også kaldet TPOT.

Inference-hastighed

Paraplybegrebet: TTFT, inter-token latency og throughput - og hvilken der betyder noget hvornår.

Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.

Tokens per sekund

Per-request hastighed: hvad benchmarks rapporterer

System-throughput: hvad udbydernes økonomi afhænger af

Sådan læser du en tok/s-påstand

Kilder

Relaterede begreber

Klar til at bygge fremtidens AI i Europa?