Udviklerressourcer

Ordliste for inference-performance

Klare definitioner af metrikkerne og koncepterne bag LLM-inference-performance - fra TTFT til dataflow-arkitektur. Hver post er understøttet af publicerede kilder og reelle benchmark-data fra vores EU-infrastruktur.

Performance-metrikker

TTFT (Time to First Token)

Hvor længe en bruger venter mellem at sende en forespørgsel og se den første token af svaret.

Inter-Token Latency (ITL)

Det gennemsnitlige tidsinterval mellem på hinanden følgende tokens under generering - også kaldet TPOT.

Tokens per sekund

Standardenheden for LLM-genereringshastighed - og hvorfor det samme tal kan betyde to forskellige ting.

Inference-hastighed

Paraplybegrebet: TTFT, inter-token latency og throughput - og hvilken der betyder noget hvornår.

Serving-koncepter

Inference

At køre en trænet AI-model for at producere output - AI's produktionsworkload, og den hvor omkostning og hastighed forstærkes med brugen.

Throughput (LLM-serving)

Tokens per sekund i to betydninger: per-request output throughput vs. systemdækkende kapacitet - og hvordan batching bytter det ene for det andet.

Prefill vs. Decode

LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.

Latency vs. Throughput

Det fundamentale serving-trade-off: samlet systemoutput vs. hver brugers hastighed.

Arkitektur

RDU (Reconfigurable Dataflow Unit)

SambaNova's AI-processor - specialbyggede AI-chips designet til dataflow-eksekvering i stedet for instruktion-for-instruktion-behandling.

Dataflow-arkitektur

Eksekveringsmodellen hvor data streames gennem operationer som en pipeline - og eliminerer GPU-eksekveringens kernel-for-kernel-rundture.

Ordliste for inference-performance

Performance-metrikker

Serving-koncepter

Arkitektur

Klar til at bygge fremtidens AI i Europa?