Ordliste for inference-performance
Klare definitioner af metrikkerne og koncepterne bag LLM-inference-performance - fra TTFT til dataflow-arkitektur. Hver post er understøttet af publicerede kilder og reelle benchmark-data fra vores EU-infrastruktur.
Performance-metrikker
TTFT (Time to First Token)
Hvor længe en bruger venter mellem at sende en forespørgsel og se den første token af svaret.
Inter-Token Latency (ITL)
Det gennemsnitlige tidsinterval mellem på hinanden følgende tokens under generering - også kaldet TPOT.
Tokens per sekund
Standardenheden for LLM-genereringshastighed - og hvorfor det samme tal kan betyde to forskellige ting.
Inference-hastighed
Paraplybegrebet: TTFT, inter-token latency og throughput - og hvilken der betyder noget hvornår.
Serving-koncepter
Inference
At køre en trænet AI-model for at producere output - AI's produktionsworkload, og den hvor omkostning og hastighed forstærkes med brugen.
Throughput (LLM-serving)
Tokens per sekund i to betydninger: per-request output throughput vs. systemdækkende kapacitet - og hvordan batching bytter det ene for det andet.
Prefill vs. Decode
LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.
Latency vs. Throughput
Det fundamentale serving-trade-off: samlet systemoutput vs. hver brugers hastighed.
Arkitektur
RDU (Reconfigurable Dataflow Unit)
SambaNova's AI-processor - specialbyggede AI-chips designet til dataflow-eksekvering i stedet for instruktion-for-instruktion-behandling.
Dataflow-arkitektur
Eksekveringsmodellen hvor data streames gennem operationer som en pipeline - og eliminerer GPU-eksekveringens kernel-for-kernel-rundture.