Ausgabe-Durchsatz vs. Systemdurchsatz

Wenn ein Benchmark den Ausgabe-Durchsatz berichtet - wie die 713 tok/s, die wir auf gpt-oss-120b messen -, sind damit die Token gemeint, die nach dem ersten Token zu einer einzelnen Anfrage streamen. Das ist die Zahl, die bestimmt, wie schnell ein Nutzer eine vollständige Antwort erhält. Der Systemdurchsatz ist etwas anderes: Die Engineering-Literatur definiert ihn als die Anzahl der Ausgabe-Token pro Sekunde, die ein Inferenz-Server über alle Nutzer und Anfragen hinweg generiert; Benchmarking-Dokumentationen nennen ihn "TPS pro System" im Gegensatz zu "TPS pro Nutzer". Unter Last bewegen sich beide in entgegengesetzte Richtungen: Mit steigender Parallelität klettert der Systemdurchsatz Richtung Hardware-Sättigung, während der Ausgabe-Durchsatz jedes einzelnen Nutzers sinkt.

Warum Batching den Zielkonflikt erzeugt

Die Decode-Phase der Inferenz ist durch die Speicherbandbreite begrenzt: Für jedes generierte Token muss die Hardware die Modellgewichte aus dem Speicher streamen. Batching amortisiert diese Kosten - die Gewichte werden einmal geladen, und die Anfragen vieler Nutzer werden im selben Durchlauf vorangetrieben. Anyscales Continuous-Batching-Benchmarks zeigten einen bis zu 23x höheren Durchsatz im Vergleich zum naiven Abarbeiten einzelner Anfragen.

Der Haken: Alle im Batch teilen sich dieselbe Speicherbandbreite, ein größerer Batch bedeutet also langsamere Token für jeden Nutzer. Databricks hat den Zielkonflikt konkret vermessen: Bei Batch-Größe 64 auf einer A100 stieg der Durchsatz um das 14-Fache - während die Latenz jeder Anfrage um das 4-Fache stieg. Der Systemdurchsatz ist letztlich das Anliegen des Anbieters - er bestimmt dessen Kosten pro Token und Kapazitätsplanung. Als Nutzer erleben Sie nur den Ausgabe-Durchsatz Ihrer eigenen Anfrage; die Batching-Strategie des Anbieters entscheidet, wo dieser landet.

Worauf man in der Praxis achten sollte

Orientieren Sie sich bei der Bewertung von Anbietern an den Zahlen pro Anfrage: Ausgabe-Durchsatz und Inter-Token-Latenz unter realistischer Last - eine plakative Systemdurchsatz-Zahl sagt nichts darüber aus, welche Erfahrung Ihre Anfragen erhalten werden. Auch die Architektur zählt: Hardware, die bei kleinen Batch-Größen eine hohe Auslastung hält, kann hohe Geschwindigkeit pro Anfrage liefern, ohne auf aggressives Batching angewiesen zu sein - das ist die Designprämisse der Dataflow-Architektur, auf der unsere Plattform läuft.

Quellen

Gemessene Benchmarks LLM-Inference-Geschwindigkeit erklärt So bewerten Sie einen Inference-Anbieter

Durchsatz (LLM-Serving)

Ausgabe-Durchsatz vs. Systemdurchsatz

Warum Batching den Zielkonflikt erzeugt

Worauf man in der Praxis achten sollte

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?