Kernel-für-Kernel- vs. Streaming-Ausführung

Eine GPU führt ein neuronales Netz als Folge von Kerneln aus: Operation ausführen, Zwischenergebnis in den Speicher schreiben, für die nächste Operation wieder abrufen, synchronisieren, wiederholen. SambaNovas Ingenieure weisen darauf hin, dass jede dieser Grenzen Latenz, Speicherverkehr und Energiekosten hinzufügt - ein Aufschlag, der bei jedem Token anfällt und sich durch die autoregressive Decode-Phase, in der Token einzeln generiert werden, aufsummiert.

Ein Dataflow-Prozessor bildet die Berechnung stattdessen als kontinuierliche Pipeline auf ein Raster aus Rechen- und Speichereinheiten ab: Während eine Operation ausgeführt wird, werden die Daten für die nächste bereits geladen, und Zwischenaktivierungen bleiben lokal auf dem Chip, statt Roundtrips zum externen Speicher zu machen. SambaNovas veröffentlichtes SN40L-Paper beschreibt die Fusion von Pipelines mit 20 oder mehr Operatoren zu einem einzigen Kernel-Aufruf - wo konventionelle GPU-Fusion typischerweise 1 bis 5 Operatoren kombiniert -, was den Kernel-Startaufwand amortisiert und die Speicherbandbreite für das Wesentliche reserviert: das Streamen von Gewichten und KV-Cache.

Warum sie gerade für die Inferenz wichtig ist

LLM-Inferenz hat zwei Phasen mit entgegengesetzten Hardware-Bedürfnissen. Der Prefill (Verarbeitung des Prompts) ist rechenintensiv und parallel - Arbeit, für die GPUs gut geeignet sind, wie SambaNova selbst anerkennt. Der Decode (Generieren von Token) ist durch die Speicherbandbreite begrenzt: Jedes Token erfordert das Streamen der Modellgewichte aus dem Speicher, sodass Ausführungseffizienz und Datenbewegung die Geschwindigkeit bestimmen. Die Dataflow-Ausführung ist genau für diese Phase gebaut - weshalb die Branche die aktuelle Verschiebung hin zu agentischen, generierungslastigen Workloads die Decode-Ära nennt.

Die praktische Konsequenz zeigt sich in der Geschwindigkeit pro Anfrage bei kleinen Batch-Größen. GPU-Serving stellt die Decode-Effizienz wieder her, indem es viele Nutzer zusammen batcht und dabei individuelle Latenz gegen aggregierten Durchsatz eintauscht. Eine Dataflow-Pipeline hält die Auslastung hoch, ohne auf große Batches angewiesen zu sein - und liefert so hohe Geschwindigkeit für die einzelne Anfrage. Auf unserer SN40L-basierten Infrastruktur in München bedeutet das 713 Token pro Sekunde auf gpt-oss-120b und 428 Token pro Sekunde auf MiniMax M2.7 Ultraspeed, gemessen pro Anfrage auf Produktionshardware.

Das Speichersystem dahinter

Streaming-Ausführung braucht einen darauf ausgelegten Speicher. Der SN40L koppelt sein Dataflow-Fabric an ein dreistufiges Speichersystem - 520 MB On-Chip-SRAM, 64 GB HBM pro Sockel und direkt angebundenes DDR -, das SambaNova als den Weg beschreibt, die Memory Wall der KI zu überwinden: SRAM hält die heißesten lokalen Daten, HBM streamt die Gewichte des aktiven Modells, und die DDR-Ebene hält zusätzliche Modelle und Prompt-Caches vor, was Modellwechsel in Millisekunden statt der Sekunden ermöglicht, die GPU-Stacks benötigen.

Quellen

Gemessene Benchmarks Die Architektur hinter 713 Tokens pro Sekunde

Dataflow-Architektur

Kernel-für-Kernel- vs. Streaming-Ausführung

Warum sie gerade für die Inferenz wichtig ist

Das Speichersystem dahinter

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?