Glossario
Architettura

RDU (Reconfigurable Dataflow Unit)

Una Reconfigurable Dataflow Unit (RDU) è il processore AI costruito appositamente da SambaNova. Invece di eseguire un modello kernel per kernel come una GPU, una RDU viene configurata in modo che i dati fluiscano attraverso unità di calcolo e di memoria disposte come una pipeline sul chip - un'architettura progettata per la fase di decode dell'inferenza LLM, intensiva in memoria.

Cos'è una RDU

La RDU è il processore al cuore dei sistemi SambaNova - l'hardware su cui funziona la nostra piattaforma. Invece di una pipeline di istruzioni fissa, il chip fornisce una griglia di Programmable Compute Unit (PCU) e Programmable Memory Unit (PMU) che il compilatore configura per ciascun modello: le operazioni sono disposte spazialmente e i tensori fluiscono attraverso di esse come una pipeline - il modello di esecuzione dataflow. SambaNova descrive il risultato come dati che fluiscono da un'operazione AI alla successiva come una catena di montaggio, con i dati per l'operazione successiva recuperati mentre quella corrente è ancora in esecuzione.

L'attuale chip di produzione, l'SN40L, abbina quel tessuto di calcolo a un sistema di memoria a tre livelli: 520 MB di SRAM on-chip per i dati più caldi, 64 GB di HBM co-packaged che trasferisce in streaming i pesi del modello, e memoria DDR collegata direttamente per il caching dei prompt e per ospitare un catalogo di modelli. Ogni socket SN40L fornisce 638 teraFLOPS BF16 da 1.040 unità di calcolo.

Perché esiste: il memory wall

Il team di ingegneria di SambaNova inquadra il problema senza giri di parole: l'inferenza AI è un problema di movimento dei dati, non di calcolo. Durante la fase di decode dell'inferenza, l'hardware deve spostare i pesi del modello dalla memoria per ogni token generato - sulle architetture basate su istruzioni, è quel traffico di memoria, non l'aritmetica, a dominare la latenza. Il design dataflow della RDU attacca questo problema direttamente: la fusione degli operatori mantiene i risultati intermedi on-chip e, nel paper pubblicato da SambaNova sull'SN40L, la fusione di operatori in grandi pipeline ha raggiunto oltre l'85% di utilizzazione della larghezza di banda HBM eliminando al contempo gli overhead di lancio per kernel.

Il paper sull'SN40L sottoposto a peer review (MICRO 2024) riporta accelerazioni da 2x a 13x rispetto a una baseline senza fusione e di 3,7x rispetto a un sistema DGX H100 su carichi di lavoro di inferenza composition-of-experts. Poiché il livello DDR si trova direttamente nel sistema di memoria del chip, passare da un checkpoint di modello all'altro richiede millisecondi - SambaNova ha misurato circa 60-90 ms per hot-swap che richiedono circa 800 ms sugli stack di serving basati su GPU.

Le RDU in pratica

Un SambaRack combina 16 RDU in un singolo rack da 19 pollici raffreddato ad aria che assorbe circa 10 kW di potenza tipica - infrastruttura datacenter standard, nessun raffreddamento a liquido. Un solo rack esegue modelli di scala frontier, inclusi modelli della classe da 671B parametri, che altrimenti richiederebbero più rack di GPU. La nostra piattaforma opera 8 sistemi SambaRack SN40L (128 RDU) a Monaco di Baviera, e la velocità che questa architettura offre è misurabile: 713 token al secondo su gpt-oss-120b, verificabile in modo indipendente attraverso i nostri benchmark pubblicati.

Fonti

Termini correlati

Scopri come l'architettura dataflow di SambaNova cambia l'economia dell'inferenza - e perché abbiamo costruito su di essa.

Pronto a Costruire il Futuro dell'AI in Europa?

Unisciti alle organizzazioni lungimiranti che implementano AI sovrana con prestazioni di livello mondiale