Ausgabe-Durchsatz vs. Systemdurchsatz
Wenn ein Benchmark den Ausgabe-Durchsatz berichtet - wie die 713 tok/s, die wir auf gpt-oss-120b messen -, sind damit die Token gemeint, die nach dem ersten Token zu einer einzelnen Anfrage streamen. Das ist die Zahl, die bestimmt, wie schnell ein Nutzer eine vollständige Antwort erhält. Der Systemdurchsatz ist etwas anderes: Die Engineering-Literatur definiert ihn als die Anzahl der Ausgabe-Token pro Sekunde, die ein Inferenz-Server über alle Nutzer und Anfragen hinweg generiert; Benchmarking-Dokumentationen nennen ihn "TPS pro System" im Gegensatz zu "TPS pro Nutzer". Unter Last bewegen sich beide in entgegengesetzte Richtungen: Mit steigender Parallelität klettert der Systemdurchsatz Richtung Hardware-Sättigung, während der Ausgabe-Durchsatz jedes einzelnen Nutzers sinkt.
Warum Batching den Zielkonflikt erzeugt
Die Decode-Phase der Inferenz ist durch die Speicherbandbreite begrenzt: Für jedes generierte Token muss die Hardware die Modellgewichte aus dem Speicher streamen. Batching amortisiert diese Kosten - die Gewichte werden einmal geladen, und die Anfragen vieler Nutzer werden im selben Durchlauf vorangetrieben. Anyscales Continuous-Batching-Benchmarks zeigten einen bis zu 23x höheren Durchsatz im Vergleich zum naiven Abarbeiten einzelner Anfragen.
Der Haken: Alle im Batch teilen sich dieselbe Speicherbandbreite, ein größerer Batch bedeutet also langsamere Token für jeden Nutzer. Databricks hat den Zielkonflikt konkret vermessen: Bei Batch-Größe 64 auf einer A100 stieg der Durchsatz um das 14-Fache - während die Latenz jeder Anfrage um das 4-Fache stieg. Der Systemdurchsatz ist letztlich das Anliegen des Anbieters - er bestimmt dessen Kosten pro Token und Kapazitätsplanung. Als Nutzer erleben Sie nur den Ausgabe-Durchsatz Ihrer eigenen Anfrage; die Batching-Strategie des Anbieters entscheidet, wo dieser landet.
Worauf man in der Praxis achten sollte
Orientieren Sie sich bei der Bewertung von Anbietern an den Zahlen pro Anfrage: Ausgabe-Durchsatz und Inter-Token-Latenz unter realistischer Last - eine plakative Systemdurchsatz-Zahl sagt nichts darüber aus, welche Erfahrung Ihre Anfragen erhalten werden. Auch die Architektur zählt: Hardware, die bei kleinen Batch-Größen eine hohe Auslastung hält, kann hohe Geschwindigkeit pro Anfrage liefern, ohne auf aggressives Batching angewiesen zu sein - das ist die Designprämisse der Dataflow-Architektur, auf der unsere Plattform läuft.
Quellen
Verwandte Begriffe
Token pro Sekunde
Die Standardeinheit für die LLM-Generierungsgeschwindigkeit - und warum dieselbe Zahl zwei verschiedene Dinge bedeuten kann.
Latenz vs. Durchsatz
Der fundamentale Serving-Zielkonflikt: Gesamtleistung des Systems vs. Geschwindigkeit jedes einzelnen Nutzers.
Prefill vs. Decode
Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.
Erfahren Sie, wie SambaNovas Dataflow-Architektur die Ökonomie der Inferenz verändert - und warum wir darauf aufbauen.