Inference vs. træning
Machine learning har to fundamentalt forskellige faser. Træning justerer en models parametre mod store datasæt, indtil dens adfærd passer til mønstrene i dataene - en massiv, engangs (eller periodisk) beregning. Inference anvender den færdige model: vægtene er fastfrosset, et input går ind, et output kommer ud. IBM's definition rammer det godt: enhver instans, hvor en AI-model faktisk genererer output eller træffer beslutninger i en virkelig applikation, udgør inference.
Du vil nogle gange se det kaldt "inferencing" - standardbegrebet blandt praktikere er simpelthen inference. For LLM'er specifikt betyder inference at generere tokens: modellen behandler din prompt (prefill) og producerer derefter svaret én token ad gangen (decode).
Hvorfor inference er det workload, der betyder noget operationelt
Træning får overskrifterne, men inference er der, hvor AI møder produktion - og hvor omkostning og hastighed forstærkes. En model trænes én gang; den betjener millioner af forespørgsler. Hver brugerinteraktion, hvert agent-trin og hvert pipeline-run betaler inferencens latens og omkostning igen. I takt med at AI bevæger sig mod agentiske workloads, der genererer langt flere tokens per opgave, dominerer serving-økonomien - tokens per sekund, omkostning per token, energi per token - i stigende grad AI's samlede økonomi.
Inference belaster også hardware anderledes end træning. Træning er compute-bound parallelt arbejde, som GPU'er er fremragende til. LLM-inference domineres af decode-fasen, der er bundet af hukommelsesbåndbredde - hvilket er grunden til, at hardware designet specifikt til inference, som den RDU-arkitektur vores platform kører på, kan overgå generelle acceleratorer på hastighed og effektivitet for dette workload.
Måling af inference
Inference-performance måles på de metrikker, denne ordliste dækker: time to first token (responsivitet), inter-token latency og output throughput (genereringshastighed) samt end-to-end latency (samlet svartid). Hvor modellen kører, betyder også noget - inference behandler dine faktiske produktionsdata ved hver forespørgsel, hvilket er grunden til, at dataresidency og jurisdiktion er inference-spørgsmål: modellen, der betjener dine brugere, håndterer alt, hvad de indsender.
Kilder
Relaterede begreber
Inference-hastighed
Paraplybegrebet: TTFT, inter-token latency og throughput - og hvilken der betyder noget hvornår.
Prefill vs. Decode
LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.
Tokens per sekund
Standardenheden for LLM-genereringshastighed - og hvorfor det samme tal kan betyde to forskellige ting.
RDU (Reconfigurable Dataflow Unit)
SambaNova's AI-processor - specialbyggede AI-chips designet til dataflow-eksekvering i stedet for instruktion-for-instruktion-behandling.
Lær hvordan SambaNova's dataflow-arkitektur ændrer økonomien i inference - og hvorfor vi byggede på den.