Ordliste
Arkitektur

Dataflow-arkitektur

Dataflow-arkitektur er et processordesign, hvor beregningen lægges ud som en pipeline, og data streames kontinuerligt gennem den - i modsætning til GPU'er, der eksekverer modeller kernel-for-kernel og skriver mellemresultater til hukommelsen og henter dem tilbage mellem hver operation. For LLM-inference eliminerer dette en stor del af den hukommelsestrafik, der begrænser token-genereringshastigheden.

Kernel-for-kernel vs. streaming-eksekvering

En GPU eksekverer et neuralt netværk som en sekvens af kernels: kør en operation, skriv mellemresultatet ud til hukommelsen, hent det tilbage til næste operation, synkronisér, gentag. SambaNova's ingeniører bemærker, at hver af disse grænser tilføjer latens, hukommelsestrafik og energiomkostning - en straf, der betales på hver token og forstærkes gennem den autoregressive decode-fase, hvor tokens genereres én ad gangen.

En dataflow-processor mapper i stedet beregningen på et grid af compute- og hukommelsesenheder som en kontinuerlig pipeline: mens én operation eksekveres, hentes data til den næste allerede, og mellemliggende aktiveringer forbliver lokalt på chippen i stedet for at tage rundture til ekstern hukommelse. SambaNova's publicerede SN40L-paper beskriver fusion af pipelines med 20 eller flere operatorer i ét enkelt kernel-kald - hvor konventionel GPU-fusion typisk kombinerer 1 til 5 operatorer - hvilket amortiserer kernel launch-overhead og reserverer hukommelsesbåndbredden til det, der betyder noget: streaming af vægte og KV-cache.

Hvorfor det betyder noget specifikt for inference

LLM-inference har to faser med modsatte hardware-appetitter. Prefill (behandling af prompten) er compute-tung og parallel - arbejde GPU'er er velegnede til, som SambaNova selv anerkender. Decode (generering af tokens) er bundet af hukommelsesbåndbredde: hver token kræver streaming af modelvægtene fra hukommelsen, så eksekveringseffektivitet og databevægelse afgør hastigheden. Dataflow-eksekvering er bygget til præcis denne fase - hvilket er grunden til, at branchen kalder det nuværende skifte mod agentiske, genereringstunge workloads for decode-æraen.

Den praktiske konsekvens viser sig i per-request hastighed ved lave batch-størrelser. GPU-serving genvinder decode-effektivitet ved at batche mange brugere sammen og bytter individuel latens for aggregeret throughput. En dataflow-pipeline fastholder høj udnyttelse uden at være afhængig af store batches - og leverer høj enkeltforespørgsels-hastighed. På vores SN40L-baserede infrastruktur i München omsættes det til 713 tokens per sekund på gpt-oss-120b og 428 tokens per sekund på MiniMax M2.7 Ultraspeed, målt per-request på produktionshardware.

Hukommelsessystemet bag

Streaming-eksekvering kræver hukommelse designet omkring den. SN40L kobler sit dataflow-fabric til et tre-lags hukommelsessystem - 520 MB on-chip SRAM, 64 GB HBM per socket og direkte tilsluttet DDR - som SambaNova beskriver som vejen til at skalere AI-hukommelsesmuren: SRAM holder de hotteste lokale data, HBM streamer den aktive models vægte, og DDR-laget holder yderligere modeller og prompt-caches, hvilket muliggør modelskift på millisekunder frem for de sekunder, GPU-stakke har brug for.

Kilder

Relaterede begreber

Lær hvordan SambaNova's dataflow-arkitektur ændrer økonomien i inference - og hvorfor vi byggede på den.

Klar til at bygge fremtidens AI i Europa?

Slut dig til fremsynede organisationer, der deployer suveræn AI med performance i verdensklasse