Kernel-for-kernel vs. streaming-eksekvering

En GPU eksekverer et neuralt netværk som en sekvens af kernels: kør en operation, skriv mellemresultatet ud til hukommelsen, hent det tilbage til næste operation, synkronisér, gentag. SambaNova's ingeniører bemærker, at hver af disse grænser tilføjer latens, hukommelsestrafik og energiomkostning - en straf, der betales på hver token og forstærkes gennem den autoregressive decode-fase, hvor tokens genereres én ad gangen.

En dataflow-processor mapper i stedet beregningen på et grid af compute- og hukommelsesenheder som en kontinuerlig pipeline: mens én operation eksekveres, hentes data til den næste allerede, og mellemliggende aktiveringer forbliver lokalt på chippen i stedet for at tage rundture til ekstern hukommelse. SambaNova's publicerede SN40L-paper beskriver fusion af pipelines med 20 eller flere operatorer i ét enkelt kernel-kald - hvor konventionel GPU-fusion typisk kombinerer 1 til 5 operatorer - hvilket amortiserer kernel launch-overhead og reserverer hukommelsesbåndbredden til det, der betyder noget: streaming af vægte og KV-cache.

Hvorfor det betyder noget specifikt for inference

LLM-inference har to faser med modsatte hardware-appetitter. Prefill (behandling af prompten) er compute-tung og parallel - arbejde GPU'er er velegnede til, som SambaNova selv anerkender. Decode (generering af tokens) er bundet af hukommelsesbåndbredde: hver token kræver streaming af modelvægtene fra hukommelsen, så eksekveringseffektivitet og databevægelse afgør hastigheden. Dataflow-eksekvering er bygget til præcis denne fase - hvilket er grunden til, at branchen kalder det nuværende skifte mod agentiske, genereringstunge workloads for decode-æraen.

Den praktiske konsekvens viser sig i per-request hastighed ved lave batch-størrelser. GPU-serving genvinder decode-effektivitet ved at batche mange brugere sammen og bytter individuel latens for aggregeret throughput. En dataflow-pipeline fastholder høj udnyttelse uden at være afhængig af store batches - og leverer høj enkeltforespørgsels-hastighed. På vores SN40L-baserede infrastruktur i München omsættes det til 713 tokens per sekund på gpt-oss-120b og 428 tokens per sekund på MiniMax M2.7 Ultraspeed, målt per-request på produktionshardware.

Hukommelsessystemet bag

Streaming-eksekvering kræver hukommelse designet omkring den. SN40L kobler sit dataflow-fabric til et tre-lags hukommelsessystem - 520 MB on-chip SRAM, 64 GB HBM per socket og direkte tilsluttet DDR - som SambaNova beskriver som vejen til at skalere AI-hukommelsesmuren: SRAM holder de hotteste lokale data, HBM streamer den aktive models vægte, og DDR-laget holder yderligere modeller og prompt-caches, hvilket muliggør modelskift på millisekunder frem for de sekunder, GPU-stakke har brug for.

Kilder

Videre læsning

Målte benchmarks Arkitekturen bag 713 tokens per sekund

Relaterede begreber

RDU (Reconfigurable Dataflow Unit)

SambaNova's AI-processor - specialbyggede AI-chips designet til dataflow-eksekvering i stedet for instruktion-for-instruktion-behandling.

Prefill vs. Decode

LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.

Latency vs. Throughput

Det fundamentale serving-trade-off: samlet systemoutput vs. hver brugers hastighed.

Parametre

En models lærte vægte - det grove mål for dens størrelse og kapacitet og den direkte drivkraft bag dens hukommelse, hastighed og omkostning.

Lær hvordan SambaNova's dataflow-arkitektur ændrer økonomien i inference - og hvorfor vi byggede på den.

Dataflow-arkitektur

Kernel-for-kernel vs. streaming-eksekvering

Hvorfor det betyder noget specifikt for inference

Hukommelsessystemet bag

Kilder

Relaterede begreber

Klar til at bygge fremtidens AI i Europa?