Cos'è una RDU
La RDU è il processore al cuore dei sistemi SambaNova - l'hardware su cui funziona la nostra piattaforma. Invece di una pipeline di istruzioni fissa, il chip fornisce una griglia di Programmable Compute Unit (PCU) e Programmable Memory Unit (PMU) che il compilatore configura per ciascun modello: le operazioni sono disposte spazialmente e i tensori fluiscono attraverso di esse come una pipeline - il modello di esecuzione dataflow. SambaNova descrive il risultato come dati che fluiscono da un'operazione AI alla successiva come una catena di montaggio, con i dati per l'operazione successiva recuperati mentre quella corrente è ancora in esecuzione.
L'attuale chip di produzione, l'SN40L, abbina quel tessuto di calcolo a un sistema di memoria a tre livelli: 520 MB di SRAM on-chip per i dati più caldi, 64 GB di HBM co-packaged che trasferisce in streaming i pesi del modello, e memoria DDR collegata direttamente per il caching dei prompt e per ospitare un catalogo di modelli. Ogni socket SN40L fornisce 638 teraFLOPS BF16 da 1.040 unità di calcolo.
Perché esiste: il memory wall
Il team di ingegneria di SambaNova inquadra il problema senza giri di parole: l'inferenza AI è un problema di movimento dei dati, non di calcolo. Durante la fase di decode dell'inferenza, l'hardware deve spostare i pesi del modello dalla memoria per ogni token generato - sulle architetture basate su istruzioni, è quel traffico di memoria, non l'aritmetica, a dominare la latenza. Il design dataflow della RDU attacca questo problema direttamente: la fusione degli operatori mantiene i risultati intermedi on-chip e, nel paper pubblicato da SambaNova sull'SN40L, la fusione di operatori in grandi pipeline ha raggiunto oltre l'85% di utilizzazione della larghezza di banda HBM eliminando al contempo gli overhead di lancio per kernel.
Il paper sull'SN40L sottoposto a peer review (MICRO 2024) riporta accelerazioni da 2x a 13x rispetto a una baseline senza fusione e di 3,7x rispetto a un sistema DGX H100 su carichi di lavoro di inferenza composition-of-experts. Poiché il livello DDR si trova direttamente nel sistema di memoria del chip, passare da un checkpoint di modello all'altro richiede millisecondi - SambaNova ha misurato circa 60-90 ms per hot-swap che richiedono circa 800 ms sugli stack di serving basati su GPU.
Le RDU in pratica
Un SambaRack combina 16 RDU in un singolo rack da 19 pollici raffreddato ad aria che assorbe circa 10 kW di potenza tipica - infrastruttura datacenter standard, nessun raffreddamento a liquido. Un solo rack esegue modelli di scala frontier, inclusi modelli della classe da 671B parametri, che altrimenti richiederebbero più rack di GPU. La nostra piattaforma opera 8 sistemi SambaRack SN40L (128 RDU) a Monaco di Baviera, e la velocità che questa architettura offre è misurabile: 713 token al secondo su gpt-oss-120b, verificabile in modo indipendente attraverso i nostri benchmark pubblicati.
Fonti
Termini correlati
Architettura Dataflow
Il modello di esecuzione in cui i dati fluiscono attraverso le operazioni come una pipeline - eliminando i round-trip kernel per kernel dell'esecuzione su GPU.
Prefill vs. Decode
Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.
Token al Secondo
L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.
Scopri come l'architettura dataflow di SambaNova cambia l'economia dell'inferenza - e perché abbiamo costruito su di essa.