Glossar
Architektur

RDU (Reconfigurable Dataflow Unit)

Eine Reconfigurable Dataflow Unit (RDU) ist SambaNovas speziell entwickelter KI-Prozessor. Statt ein Modell Kernel für Kernel auszuführen wie eine GPU, wird eine RDU so konfiguriert, dass die Daten durch Rechen- und Speichereinheiten fließen, die als Pipeline auf dem Chip angeordnet sind - eine Architektur, die für die speicherintensive Decode-Phase der LLM-Inferenz entworfen wurde.

Was eine RDU ist

Die RDU ist der Prozessor im Herzen der SambaNova-Systeme - die Hardware, auf der unsere Plattform läuft. Statt einer festen Befehlspipeline bietet der Chip ein Raster aus Programmable Compute Units (PCUs) und Programmable Memory Units (PMUs), das der Compiler pro Modell konfiguriert: Operationen werden räumlich angeordnet, und Tensoren strömen als Pipeline durch sie hindurch - das Dataflow-Ausführungsmodell. SambaNova beschreibt das Ergebnis so, dass Daten wie an einem Fließband von einer KI-Operation zur nächsten fließen, wobei die Daten für die nächste Operation bereits geladen werden, während die aktuelle noch läuft.

Der aktuelle Produktionschip, der SN40L, kombiniert dieses Compute-Fabric mit einem dreistufigen Speichersystem: 520 MB On-Chip-SRAM für die heißesten Daten, 64 GB co-packaged HBM, das die Modellgewichte streamt, und direkt angebundener DDR-Speicher für Prompt-Caching und das Vorhalten eines Katalogs von Modellen. Jeder SN40L-Sockel liefert 638 BF16-TeraFLOPS aus 1.040 Recheneinheiten.

Warum es sie gibt: die Memory Wall

SambaNovas Engineering-Team formuliert das Problem unverblümt: KI-Inferenz ist ein Datenbewegungsproblem, kein Rechenproblem. Während der Decode-Phase der Inferenz muss die Hardware für jedes generierte Token die Modellgewichte aus dem Speicher bewegen - auf befehlsbasierten Architekturen dominiert dieser Speicherverkehr die Latenz, nicht die Arithmetik. Das Dataflow-Design der RDU greift das direkt an: Operator-Fusion hält Zwischenergebnisse auf dem Chip, und in SambaNovas veröffentlichtem SN40L-Paper erreichte die Fusion von Operatoren zu großen Pipelines über 85% der HBM-Bandbreitenauslastung und eliminierte zugleich den Startaufwand pro Kernel.

Das peer-reviewte SN40L-Paper (MICRO 2024) berichtet Beschleunigungen von 2x bis 13x gegenüber einer unfusionierten Baseline und 3,7x gegenüber einem DGX-H100-System bei Composition-of-Experts-Inferenz-Workloads. Da die DDR-Ebene direkt am Speichersystem des Chips sitzt, dauert das Wechseln zwischen Modell-Checkpoints Millisekunden - SambaNova maß rund 60-90 ms für Hot-Swaps, die auf GPU-basierten Serving-Stacks etwa 800 ms benötigen.

RDUs in der Praxis

Ein SambaRack vereint 16 RDUs in einem einzelnen luftgekühlten 19-Zoll-Rack mit etwa 10 kW typischer Leistungsaufnahme - Standard-Rechenzentrumsinfrastruktur, keine Flüssigkühlung. Ein Rack betreibt Modelle der Frontier-Klasse, einschließlich Modellen der 671B-Parameter-Klasse, die andernfalls mehrere GPU-Racks erfordern würden. Unsere Plattform betreibt 8 SambaRack-SN40L-Systeme (128 RDUs) in München, und die Geschwindigkeit, die diese Architektur liefert, ist messbar: 713 Token pro Sekunde auf gpt-oss-120b, unabhängig überprüfbar über unsere veröffentlichten Benchmarks.

Quellen

Verwandte Begriffe

Erfahren Sie, wie SambaNovas Dataflow-Architektur die Ökonomie der Inferenz verändert - und warum wir darauf aufbauen.

Bereit, die Zukunft der AI in Europa zu gestalten?

Schließen Sie sich zukunftsorientierten Unternehmen an, die Souveräne KI mit Weltklasse-Performance einsetzen