Was eine RDU ist
Die RDU ist der Prozessor im Herzen der SambaNova-Systeme - die Hardware, auf der unsere Plattform läuft. Statt einer festen Befehlspipeline bietet der Chip ein Raster aus Programmable Compute Units (PCUs) und Programmable Memory Units (PMUs), das der Compiler pro Modell konfiguriert: Operationen werden räumlich angeordnet, und Tensoren strömen als Pipeline durch sie hindurch - das Dataflow-Ausführungsmodell. SambaNova beschreibt das Ergebnis so, dass Daten wie an einem Fließband von einer KI-Operation zur nächsten fließen, wobei die Daten für die nächste Operation bereits geladen werden, während die aktuelle noch läuft.
Der aktuelle Produktionschip, der SN40L, kombiniert dieses Compute-Fabric mit einem dreistufigen Speichersystem: 520 MB On-Chip-SRAM für die heißesten Daten, 64 GB co-packaged HBM, das die Modellgewichte streamt, und direkt angebundener DDR-Speicher für Prompt-Caching und das Vorhalten eines Katalogs von Modellen. Jeder SN40L-Sockel liefert 638 BF16-TeraFLOPS aus 1.040 Recheneinheiten.
Warum es sie gibt: die Memory Wall
SambaNovas Engineering-Team formuliert das Problem unverblümt: KI-Inferenz ist ein Datenbewegungsproblem, kein Rechenproblem. Während der Decode-Phase der Inferenz muss die Hardware für jedes generierte Token die Modellgewichte aus dem Speicher bewegen - auf befehlsbasierten Architekturen dominiert dieser Speicherverkehr die Latenz, nicht die Arithmetik. Das Dataflow-Design der RDU greift das direkt an: Operator-Fusion hält Zwischenergebnisse auf dem Chip, und in SambaNovas veröffentlichtem SN40L-Paper erreichte die Fusion von Operatoren zu großen Pipelines über 85% der HBM-Bandbreitenauslastung und eliminierte zugleich den Startaufwand pro Kernel.
Das peer-reviewte SN40L-Paper (MICRO 2024) berichtet Beschleunigungen von 2x bis 13x gegenüber einer unfusionierten Baseline und 3,7x gegenüber einem DGX-H100-System bei Composition-of-Experts-Inferenz-Workloads. Da die DDR-Ebene direkt am Speichersystem des Chips sitzt, dauert das Wechseln zwischen Modell-Checkpoints Millisekunden - SambaNova maß rund 60-90 ms für Hot-Swaps, die auf GPU-basierten Serving-Stacks etwa 800 ms benötigen.
RDUs in der Praxis
Ein SambaRack vereint 16 RDUs in einem einzelnen luftgekühlten 19-Zoll-Rack mit etwa 10 kW typischer Leistungsaufnahme - Standard-Rechenzentrumsinfrastruktur, keine Flüssigkühlung. Ein Rack betreibt Modelle der Frontier-Klasse, einschließlich Modellen der 671B-Parameter-Klasse, die andernfalls mehrere GPU-Racks erfordern würden. Unsere Plattform betreibt 8 SambaRack-SN40L-Systeme (128 RDUs) in München, und die Geschwindigkeit, die diese Architektur liefert, ist messbar: 713 Token pro Sekunde auf gpt-oss-120b, unabhängig überprüfbar über unsere veröffentlichten Benchmarks.
Quellen
Verwandte Begriffe
Dataflow-Architektur
Das Ausführungsmodell, bei dem Daten als Pipeline durch die Operationen strömen - und die Kernel-für-Kernel-Roundtrips der GPU-Ausführung entfallen.
Prefill vs. Decode
Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.
Token pro Sekunde
Die Standardeinheit für die LLM-Generierungsgeschwindigkeit - und warum dieselbe Zahl zwei verschiedene Dinge bedeuten kann.
Erfahren Sie, wie SambaNovas Dataflow-Architektur die Ökonomie der Inferenz verändert - und warum wir darauf aufbauen.