Woher der Zielkonflikt kommt
Die Token-Generierung ist durch die Speicherbandbreite begrenzt: Jeder Decode-Schritt muss die Modellgewichte aus dem Speicher streamen. Batching erlaubt der Hardware, die Gewichte einmal zu laden und viele Anfragen gemeinsam voranzutreiben, sodass die gesamten Token pro Sekunde mit der Batch-Größe steil ansteigen. Aber alle Anfragen im Batch teilen sich dieselbe Bandbreite, sodass die Token jedes Nutzers langsamer eintreffen. Databricks hat es konkret auf einer A100 vermessen: Batch-Größe 64 lieferte den 14-fachen Durchsatz bei 4-facher Latenz pro Anfrage.
Der Zielkonflikt hat eine harte Kante: Sobald die Batches so groß werden, dass der Decode rechengebunden wird, verbessert sich der Durchsatz nicht mehr, während sich die Latenz weiter verschlechtert - in den Worten von Databricks erhöht jede weitere Verdopplung der Batch-Größe ab diesem Punkt nur noch die Latenz. Forschungssysteme wie Sarathi-Serve (OSDI 2024) existieren speziell, um diese Kurve zu steuern, weil naives Scheduling den Prefill eines Nutzers die Generierung aller anderen Nutzer blockieren lässt.
Was das bei der Anbieterwahl bedeutet
Zwei Anbieter, die identische Modelle auf identischen GPUs betreiben, können je nach Aggressivität ihres Batchings völlig unterschiedliche Erfahrungen liefern. Hohe Auslastung ist gut für die Ökonomie des Anbieters; niedrige Latenz ist gut für Ihre Nutzer. Besseres Scheduling (Continuous Batching, Chunked Prefill) verschiebt die Grenze nach außen - und andere Hardware verändert ihre Form grundlegend: Architekturen, die bei kleinen Batch-Größen effizient bleiben, können hohe Geschwindigkeit pro Anfrage bieten, ohne ebenso viel Kapazität zu opfern - das ist die Prämisse der Dataflow-Architektur hinter unserer Plattform.
Praktischer Rat: Benchmarken Sie Anbieter unter Ihrem realen Workload und Ihrer realen Parallelität, nicht nur mit Einzelanfragen um Mitternacht. Beobachten Sie die Stabilität der Inter-Token-Latenz über den Tag - sie verrät, wie überbucht die Kapazität tatsächlich ist.
Quellen
Verwandte Begriffe
Durchsatz (LLM-Serving)
Token pro Sekunde in zwei Bedeutungen: Ausgabe-Durchsatz pro Anfrage vs. systemweite Kapazität - und wie Batching das eine gegen das andere eintauscht.
Inter-Token-Latenz (ITL)
Der durchschnittliche Zeitabstand zwischen aufeinanderfolgenden Token während der Generierung - auch TPOT genannt.
Dataflow-Architektur
Das Ausführungsmodell, bei dem Daten als Pipeline durch die Operationen strömen - und die Kernel-für-Kernel-Roundtrips der GPU-Ausführung entfallen.
Sehen Sie diese Metriken live auf unserer EU-Infrastruktur gemessen - echte Zahlen von Produktionshardware, unabhängig verifiziert.