Was eine RDU ist

Die RDU ist der Prozessor im Herzen der SambaNova-Systeme - die Hardware, auf der unsere Plattform läuft. Statt einer festen Befehlspipeline bietet der Chip ein Raster aus Programmable Compute Units (PCUs) und Programmable Memory Units (PMUs), das der Compiler pro Modell konfiguriert: Operationen werden räumlich angeordnet, und Tensoren strömen als Pipeline durch sie hindurch - das Dataflow-Ausführungsmodell. SambaNova beschreibt das Ergebnis so, dass Daten wie an einem Fließband von einer KI-Operation zur nächsten fließen, wobei die Daten für die nächste Operation bereits geladen werden, während die aktuelle noch läuft.

Der aktuelle Produktionschip, der SN40L, kombiniert dieses Compute-Fabric mit einem dreistufigen Speichersystem: 520 MB On-Chip-SRAM für die heißesten Daten, 64 GB co-packaged HBM, das die Modellgewichte streamt, und direkt angebundener DDR-Speicher für Prompt-Caching und das Vorhalten eines Katalogs von Modellen. Jeder SN40L-Sockel liefert 638 BF16-TeraFLOPS aus 1.040 Recheneinheiten.

Warum es sie gibt: die Memory Wall

SambaNovas Engineering-Team formuliert das Problem unverblümt: KI-Inferenz ist ein Datenbewegungsproblem, kein Rechenproblem. Während der Decode-Phase der Inferenz muss die Hardware für jedes generierte Token die Modellgewichte aus dem Speicher bewegen - auf befehlsbasierten Architekturen dominiert dieser Speicherverkehr die Latenz, nicht die Arithmetik. Das Dataflow-Design der RDU greift das direkt an: Operator-Fusion hält Zwischenergebnisse auf dem Chip, und in SambaNovas veröffentlichtem SN40L-Paper erreichte die Fusion von Operatoren zu großen Pipelines über 85% der HBM-Bandbreitenauslastung und eliminierte zugleich den Startaufwand pro Kernel.

Das peer-reviewte SN40L-Paper (MICRO 2024) berichtet Beschleunigungen von 2x bis 13x gegenüber einer unfusionierten Baseline und 3,7x gegenüber einem DGX-H100-System bei Composition-of-Experts-Inferenz-Workloads. Da die DDR-Ebene direkt am Speichersystem des Chips sitzt, dauert das Wechseln zwischen Modell-Checkpoints Millisekunden - SambaNova maß rund 60-90 ms für Hot-Swaps, die auf GPU-basierten Serving-Stacks etwa 800 ms benötigen.

RDUs in der Praxis

Ein SambaRack vereint 16 RDUs in einem einzelnen luftgekühlten 19-Zoll-Rack mit etwa 10 kW typischer Leistungsaufnahme - Standard-Rechenzentrumsinfrastruktur, keine Flüssigkühlung. Ein Rack betreibt Modelle der Frontier-Klasse, einschließlich Modellen der 671B-Parameter-Klasse, die andernfalls mehrere GPU-Racks erfordern würden. Unsere Plattform betreibt 8 SambaRack-SN40L-Systeme (128 RDUs) in München, und die Geschwindigkeit, die diese Architektur liefert, ist messbar: 713 Token pro Sekunde auf gpt-oss-120b, unabhängig überprüfbar über unsere veröffentlichten Benchmarks.

Quellen

Gemessene Benchmarks Die Architektur hinter 713 Tokens pro Sekunde

RDU (Reconfigurable Dataflow Unit)

Was eine RDU ist

Warum es sie gibt: die Memory Wall

RDUs in der Praxis

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?