Was in jeder Phase passiert

Während des Prefills liest das Modell den gesamten Prompt auf einmal - eine große, hochparallele Matrix-Matrix-Berechnung, die die Recheneinheiten der Hardware effektiv auslastet. Das Ergebnis ist der KV-Cache: die Attention-Keys und -Values für jedes Prompt-Token, einmal berechnet und für den Rest der Anfrage wiederverwendet. Der Prefill endet, wenn das erste Ausgabe-Token erzeugt wird - weshalb die Prompt-Länge die Zeit bis zum ersten Token bestimmt.

Während des Decodes generiert das Modell ein Token, hängt es an den Kontext an und wiederholt den Vorgang. Jeder Schritt ist eine schmale Matrix-Vektor-Operation, die den zwischengespeicherten Zustand wiederverwendet - aber für jedes einzelne Token die Modellgewichte aus dem Speicher streamen muss. Diese Phase ist speichergebunden: Die Geschwindigkeit, mit der Gewichte und Cache-Daten aus dem Speicher bewegt werden, dominiert die Latenz, nicht die Arithmetik.

Prefill vs. Decode: rechengebundene parallele Prompt-Verarbeitung versus speichergebundene sequenzielle Token-Generierung

Warum die Unterscheidung wichtig ist

Die beiden Phasen verlangen unterschiedliche Hardware. Der Prefill belohnt rohe Rechenleistung; der Decode belohnt Speicherbandbreite und effiziente Datenbewegung. Der Engineering-Leitfaden von Databricks bringt es praktisch auf den Punkt: Die Speicherbandbreite ist ein besserer Prädiktor für die Token-Generierungsgeschwindigkeit als die Spitzenrechenleistung. Ein Chip mit spektakulären FLOPS kann trotzdem langsam Token generieren, wenn er am Speicher hängt.

Das ist auch der Grund, warum GPU-basiertes Serving stark auf Batching setzt: Die Amortisierung jedes Gewichtsladens über viele gleichzeitige Anfragen stellt die Auslastung während des Decodes wieder her - auf Kosten der Geschwindigkeit pro Nutzer. Architekturen, die um Datenbewegung herum entworfen sind, wie die Dataflow-Hardware, die wir betreiben, greifen den Decode-Engpass stattdessen direkt an und halten die Auslastung auch bei kleinen Batch-Größen hoch.

Die Metriken durch diese Brille lesen

Die Prefill-Performance zeigt sich in der TTFT; die Decode-Performance zeigt sich in der Inter-Token-Latenz und den Ausgabe-Token pro Sekunde. Eine Einschränkung aus der Forschungsliteratur: Die Aufteilung rechengebunden/speichergebunden gilt für übliche Serving-Batch-Größen - bei sehr großen Batch-Größen kann der Decode in Richtung rechengebunden kippen. Der Branchentrend zum disaggregierten Serving - Prefill und Decode auf getrennten, spezialisierten Hardware-Pools - existiert genau deshalb, weil die beiden Phasen so unterschiedlich sind.

Quellen

Dataflow vs. GPU-Architektur Die Architektur hinter 713 Tokens pro Sekunde

Prefill vs. Decode

Was in jeder Phase passiert

Warum die Unterscheidung wichtig ist

Die Metriken durch diese Brille lesen

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?