Geschwindigkeit pro Anfrage: was Benchmarks berichten
Wenn unabhängige Benchmarks wie Artificial Analysis die "Ausgabegeschwindigkeit" berichten, messen sie die durchschnittliche Anzahl der pro Sekunde empfangenen Token nach Eintreffen des ersten Tokens - eine einzelne Anfrage, mit bewusst ausgeschlossener Zeit bis zum ersten Token. Das ist die Zahl, die die Nutzererfahrung bestimmt: wie schnell die Antwort streamt.
Auf unserer EU-Infrastruktur messen wir einen Ausgabe-Durchsatz pro Anfrage von 713 tok/s auf gpt-oss-120b und 428 tok/s auf MiniMax M2.7 Ultraspeed (p50, 10.000 Token Eingabe, einzelne Anfrage). Für die Vergleichbarkeit zwischen Modellen mit unterschiedlichen Tokenizern standardisiert Artificial Analysis alle Geschwindigkeitsmetriken in OpenAI-Token, gezählt mit dem tiktoken-Tokenizer o200k_base.
Systemdurchsatz: wovon die Ökonomie der Anbieter abhängt
Die zweite Bedeutung ist der aggregierte Durchsatz: die Gesamtzahl der Token, die ein System pro Sekunde über alle gleichzeitigen Anfragen hinweg erzeugt. Die Benchmarking-Literatur unterscheidet diese explizit als "TPS pro Nutzer" versus "TPS pro System". Ein GPU-Server könnte jedem von 100 gleichzeitigen Nutzern 30 tok/s liefern - 3.000 tok/s Systemdurchsatz, aber eine deutlich langsamere Erfahrung pro Anfrage.
An dieser Unterscheidung werden Geschwindigkeitsangaben unscharf: Ein Anbieter kann wahrheitsgemäß mit Tausenden Token pro Sekunde werben, während jede einzelne Anfrage kriecht. Wenn Sie eine tok/s-Zahl sehen, lautet die erste Frage: pro Anfrage oder über das gesamte System?
Wie man eine tok/s-Angabe liest
Prüfen Sie drei Dinge: ob es sich um einen Wert pro Anfrage oder einen aggregierten Wert handelt, ob die TTFT ein- oder ausgeschlossen ist (Artificial Analysis schließt sie per Definition aus) und die Form des Workloads - Prompt-Länge und Ausgabelänge verändern beide die Zahl. Unsere veröffentlichten Benchmarks nennen alle drei Angaben: pro Anfrage, serverseitig p50, 10.000 Eingabe- / 1.000 Ausgabe-Token.
Quellen
Verwandte Begriffe
Durchsatz (LLM-Serving)
Token pro Sekunde in zwei Bedeutungen: Ausgabe-Durchsatz pro Anfrage vs. systemweite Kapazität - und wie Batching das eine gegen das andere eintauscht.
Inter-Token-Latenz (ITL)
Der durchschnittliche Zeitabstand zwischen aufeinanderfolgenden Token während der Generierung - auch TPOT genannt.
Inferenzgeschwindigkeit
Der Oberbegriff: TTFT, Inter-Token-Latenz und Durchsatz - und welche Metrik wann zählt.
Sehen Sie diese Metriken live auf unserer EU-Infrastruktur gemessen - echte Zahlen von Produktionshardware, unabhängig verifiziert.