Hvad en RDU er

RDU'en er processoren i hjertet af SambaNova's systemer - den hardware, vores platform kører på. I stedet for en fast instruktionspipeline tilbyder chippen et grid af Programmable Compute Units (PCU'er) og Programmable Memory Units (PMU'er), som compileren konfigurerer per model: operationer lægges ud rumligt, og tensorer streames gennem dem som en pipeline - dataflow-eksekveringsmodellen. SambaNova beskriver resultatet som data, der flyder fra én AI-operation til den næste som et samlebånd, hvor data til den næste operation hentes, mens den nuværende stadig kører.

Den nuværende produktionschip, SN40L, parrer dette compute-fabric med et tre-lags hukommelsessystem: 520 MB on-chip SRAM til de hotteste data, 64 GB co-packaged HBM, der streamer modelvægte, og direkte tilsluttet DDR-hukommelse til prompt-caching og til at holde et katalog af modeller. Hver SN40L-socket leverer 638 BF16 teraFLOPS fra 1.040 compute-enheder.

Hvorfor den findes: hukommelsesmuren

SambaNova's engineering-team formulerer problemet direkte: AI-inference er et databevægelsesproblem, ikke et compute-problem. Under inferencens decode-fase skal hardwaren flytte modelvægte fra hukommelsen for hver genereret token - på instruktionsbaserede arkitekturer er det denne hukommelsestrafik, ikke aritmetikken, der dominerer latensen. RDU'ens dataflow-design angriber dette direkte: operator fusion holder mellemresultater på chippen, og i SambaNova's publicerede SN40L-paper opnåede fusion af operatorer til store pipelines over 85% udnyttelse af HBM-båndbredden, samtidig med at per-kernel launch-overhead blev elimineret.

Det peer-reviewede SN40L-paper (MICRO 2024) rapporterer speedups på 2x til 13x over en ufusioneret baseline og 3,7x over et DGX H100-system på composition-of-experts inference-workloads. Fordi DDR-laget sidder direkte på chippens hukommelsessystem, tager skift mellem model-checkpoints millisekunder - SambaNova målte cirka 60-90 ms for hot-swaps, der tager omkring 800 ms på GPU-baserede serving-stakke.

RDU'er i praksis

En SambaRack kombinerer 16 RDU'er i ét enkelt luftkølet 19-tommer rack med et typisk strømforbrug på omkring 10 kW - standard datacenterinfrastruktur, ingen væskekøling. Ét rack kører modeller i frontier-skala, herunder modeller i 671B-parameter-klassen, som ellers ville kræve flere GPU-racks. Vores platform driver 8 SambaRack SN40L-systemer (128 RDU'er) i München, og den hastighed, denne arkitektur leverer, er målbar: 713 tokens per sekund på gpt-oss-120b, uafhængigt verificerbart gennem vores publicerede benchmarks.

Kilder

Videre læsning

Målte benchmarks Arkitekturen bag 713 tokens per sekund

Relaterede begreber

Dataflow-arkitektur

Eksekveringsmodellen hvor data streames gennem operationer som en pipeline - og eliminerer GPU-eksekveringens kernel-for-kernel-rundture.

Prefill vs. Decode

LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.

Tokens per sekund

Standardenheden for LLM-genereringshastighed - og hvorfor det samme tal kan betyde to forskellige ting.

Parametre

En models lærte vægte - det grove mål for dens størrelse og kapacitet og den direkte drivkraft bag dens hukommelse, hastighed og omkostning.

Lær hvordan SambaNova's dataflow-arkitektur ændrer økonomien i inference - og hvorfor vi byggede på den.

RDU (Reconfigurable Dataflow Unit)

Hvad en RDU er

Hvorfor den findes: hukommelsesmuren

RDU'er i praksis

Kilder

Relaterede begreber

Klar til at bygge fremtidens AI i Europa?