Woher der Zielkonflikt kommt

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: Jeder Decode-Schritt muss die Modellgewichte aus dem Speicher streamen. Batching erlaubt der Hardware, die Gewichte einmal zu laden und viele Anfragen gemeinsam voranzutreiben, sodass die gesamten Token pro Sekunde mit der Batch-Größe steil ansteigen. Aber alle Anfragen im Batch teilen sich dieselbe Bandbreite, sodass die Token jedes Nutzers langsamer eintreffen. Databricks hat es konkret auf einer A100 vermessen: Batch-Größe 64 lieferte den 14-fachen Durchsatz bei 4-facher Latenz pro Anfrage.

Der Zielkonflikt hat eine harte Kante: Sobald die Batches so groß werden, dass der Decode rechengebunden wird, verbessert sich der Durchsatz nicht mehr, während sich die Latenz weiter verschlechtert - in den Worten von Databricks erhöht jede weitere Verdopplung der Batch-Größe ab diesem Punkt nur noch die Latenz. Forschungssysteme wie Sarathi-Serve (OSDI 2024) existieren speziell, um diese Kurve zu steuern, weil naives Scheduling den Prefill eines Nutzers die Generierung aller anderen Nutzer blockieren lässt.

Was das bei der Anbieterwahl bedeutet

Zwei Anbieter, die identische Modelle auf identischen GPUs betreiben, können je nach Aggressivität ihres Batchings völlig unterschiedliche Erfahrungen liefern. Hohe Auslastung ist gut für die Ökonomie des Anbieters; niedrige Latenz ist gut für Ihre Nutzer. Besseres Scheduling (Continuous Batching, Chunked Prefill) verschiebt die Grenze nach außen - und andere Hardware verändert ihre Form grundlegend: Architekturen, die bei kleinen Batch-Größen effizient bleiben, können hohe Geschwindigkeit pro Anfrage bieten, ohne ebenso viel Kapazität zu opfern - das ist die Prämisse der Dataflow-Architektur hinter unserer Plattform.

Praktischer Rat: Benchmarken Sie Anbieter unter Ihrem realen Workload und Ihrer realen Parallelität, nicht nur mit Einzelanfragen um Mitternacht. Beobachten Sie die Stabilität der Inter-Token-Latenz über den Tag - sie verrät, wie überbucht die Kapazität tatsächlich ist.

Quellen

Gemessene Benchmarks So bewerten Sie einen Inference-Anbieter

Latenz vs. Durchsatz

Woher der Zielkonflikt kommt

Was das bei der Anbieterwahl bedeutet

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?