Glossario
Architettura

Architettura Dataflow

L'architettura dataflow è un design di processore in cui il calcolo è disposto come una pipeline e i dati vi fluiscono in modo continuo - in contrasto con le GPU, che eseguono i modelli kernel per kernel, scrivendo i risultati intermedi in memoria e recuperandoli tra un'operazione e l'altra. Per l'inferenza LLM, questo elimina gran parte del traffico di memoria che limita la velocità di generazione dei token.

Esecuzione kernel per kernel vs. streaming

Una GPU esegue una rete neurale come una sequenza di kernel: esegui un'operazione, scrivi il risultato intermedio in memoria, recuperalo per l'operazione successiva, sincronizza, ripeti. Gli ingegneri di SambaNova osservano che ognuno di quei confini aggiunge latenza, traffico di memoria e costo energetico - una penalità pagata su ogni token, che si accumula lungo la fase di decode autoregressiva in cui i token vengono generati uno alla volta.

Un processore dataflow mappa invece il calcolo su una griglia di unità di calcolo e di memoria come una pipeline continua: mentre un'operazione viene eseguita, i dati per la successiva sono già in fase di recupero, e le attivazioni intermedie rimangono locali sul chip invece di fare round-trip verso la memoria esterna. Il paper pubblicato da SambaNova sull'SN40L descrive la fusione di pipeline di 20 o più operatori in una singola chiamata kernel - dove la fusione convenzionale su GPU combina tipicamente da 1 a 5 operatori - ammortizzando l'overhead di lancio dei kernel e riservando la larghezza di banda della memoria a ciò che conta: lo streaming dei pesi e della KV-cache.

Perché è importante specificamente per l'inferenza

L'inferenza LLM ha due fasi con appetiti hardware opposti. Il prefill (elaborazione del prompt) è intensivo in calcolo e parallelo - lavoro per cui le GPU sono ben adatte, come SambaNova stessa riconosce. Il decode (generazione dei token) è limitato dalla larghezza di banda della memoria: ogni token richiede lo streaming dei pesi del modello dalla memoria, quindi l'efficienza di esecuzione e il movimento dei dati determinano la velocità. L'esecuzione dataflow è costruita esattamente per questa fase - motivo per cui il settore chiama l'attuale spostamento verso carichi di lavoro agentici e intensivi in generazione l'era del decode.

La conseguenza pratica si manifesta nella velocità per richiesta a batch size bassi. Il serving su GPU recupera l'efficienza del decode raggruppando molti utenti insieme, scambiando la latenza individuale con il throughput aggregato. Una pipeline dataflow mantiene un'alta utilizzazione senza dipendere da batch grandi - offrendo un'alta velocità per singola richiesta. Sulla nostra infrastruttura basata su SN40L a Monaco di Baviera, questo si traduce in 713 token al secondo su gpt-oss-120b e 428 token al secondo su MiniMax M2.7 Ultraspeed, misurati per richiesta su hardware di produzione.

Il sistema di memoria che lo sostiene

L'esecuzione in streaming richiede una memoria progettata attorno ad essa. L'SN40L accoppia il suo tessuto dataflow a un sistema di memoria a tre livelli - 520 MB di SRAM on-chip, 64 GB di HBM per socket e DDR collegata direttamente - che SambaNova descrive come il modo per scalare il memory wall dell'AI: la SRAM contiene i dati locali più caldi, l'HBM trasferisce in streaming i pesi del modello attivo, e il livello DDR ospita modelli aggiuntivi e cache dei prompt, consentendo il cambio di modello in millisecondi anziché nei secondi necessari agli stack GPU.

Fonti

Termini correlati

Scopri come l'architettura dataflow di SambaNova cambia l'economia dell'inferenza - e perché abbiamo costruito su di essa.

Pronto a Costruire il Futuro dell'AI in Europa?

Unisciti alle organizzazioni lungimiranti che implementano AI sovrana con prestazioni di livello mondiale