Geschwindigkeit pro Anfrage: was Benchmarks berichten

Wenn unabhängige Benchmarks wie Artificial Analysis die "Ausgabegeschwindigkeit" berichten, messen sie die durchschnittliche Anzahl der pro Sekunde empfangenen Token nach Eintreffen des ersten Tokens - eine einzelne Anfrage, mit bewusst ausgeschlossener Zeit bis zum ersten Token. Das ist die Zahl, die die Nutzererfahrung bestimmt: wie schnell die Antwort streamt.

Auf unserer EU-Infrastruktur messen wir einen Ausgabe-Durchsatz pro Anfrage von 713 tok/s auf gpt-oss-120b und 428 tok/s auf MiniMax M2.7 Ultraspeed (p50, 10.000 Token Eingabe, einzelne Anfrage). Für die Vergleichbarkeit zwischen Modellen mit unterschiedlichen Tokenizern standardisiert Artificial Analysis alle Geschwindigkeitsmetriken in OpenAI-Token, gezählt mit dem tiktoken-Tokenizer o200k_base.

Systemdurchsatz: wovon die Ökonomie der Anbieter abhängt

Die zweite Bedeutung ist der aggregierte Durchsatz: die Gesamtzahl der Token, die ein System pro Sekunde über alle gleichzeitigen Anfragen hinweg erzeugt. Die Benchmarking-Literatur unterscheidet diese explizit als "TPS pro Nutzer" versus "TPS pro System". Ein GPU-Server könnte jedem von 100 gleichzeitigen Nutzern 30 tok/s liefern - 3.000 tok/s Systemdurchsatz, aber eine deutlich langsamere Erfahrung pro Anfrage.

An dieser Unterscheidung werden Geschwindigkeitsangaben unscharf: Ein Anbieter kann wahrheitsgemäß mit Tausenden Token pro Sekunde werben, während jede einzelne Anfrage kriecht. Wenn Sie eine tok/s-Zahl sehen, lautet die erste Frage: pro Anfrage oder über das gesamte System?

Wie man eine tok/s-Angabe liest

Prüfen Sie drei Dinge: ob es sich um einen Wert pro Anfrage oder einen aggregierten Wert handelt, ob die TTFT ein- oder ausgeschlossen ist (Artificial Analysis schließt sie per Definition aus) und die Form des Workloads - Prompt-Länge und Ausgabelänge verändern beide die Zahl. Unsere veröffentlichten Benchmarks nennen alle drei Angaben: pro Anfrage, serverseitig p50, 10.000 Eingabe- / 1.000 Ausgabe-Token.

Quellen

Gemessene Benchmarks LLM-Inference-Geschwindigkeit erklärt So bewerten Sie einen Inference-Anbieter

Token pro Sekunde

Geschwindigkeit pro Anfrage: was Benchmarks berichten

Systemdurchsatz: wovon die Ökonomie der Anbieter abhängt

Wie man eine tok/s-Angabe liest

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?