Ordliste
Performance-metrikker

Inference-hastighed

Inference-hastighed beskriver, hvor hurtigt et LLM-system forvandler en forespørgsel til et komplet svar. Det er ikke ét enkelt tal: det dekomponeres i time to first token (TTFT), inter-token latency (ITL) og end-to-end latency - og hvilken metrik der betyder noget, afhænger af, om et menneske eller en maskine konsumerer outputtet.

Et svars anatomi

Hvert LLM-svar har to faser. Først behandler modellen hele din prompt i ét parallelt gennemløb (prefill) - det bestemmer time to first token. Derefter genererer den output én token ad gangen (decode) - hastigheden af denne fase er inter-token latency, normalt rapporteret som output tokens per sekund. Den samlede svartid er cirka TTFT plus antallet af genererede tokens ganget med tiden per token.

Faserne belaster hardware forskelligt: prefill er typisk compute-bound, mens decode typisk er bundet af hukommelsesbåndbredde ved almindelige batch-størrelser - for hver ny token skal hardwaren flytte modelvægtene fra hukommelsen. Det er derfor, den samme hardware kan have fremragende prefill-performance og middelmådig genereringshastighed.

Hvilken metrik betyder noget for hvilket workload

For interaktiv chat dominerer TTFT opfattelsen - brugere bemærker det tavse hul, før output begynder, langt mere end streaming-hastigheden. For voice-agenter betyder begge noget, og budgetterne er stramme. For agentiske workloads - coding-agenter, tool-calling-pipelines, autonome workflows - dominerer output-hastigheden: agenten skal modtage hver token i hvert trin, før den kan handle, så genereringshastigheden forstærkes gennem hele kæden.

På vores München-infrastruktur publicerer vi alle tre tal per model: for gpt-oss-120b 388 ms TTFT, 713 tok/s output throughput og 1,789 s end-to-end for en forespørgsel med 10.000 input-tokens / 1.000 output-tokens (server-side p50).

Ærlig måling

Hastighedstal er kun sammenlignelige, når workloadet er angivet: promptlængde ændrer TTFT, outputlængde ændrer balancen mellem TTFT og generering, og samtidighed ændrer alt. End-to-end latency inkluderer derudover bidrag uden for modellen - netværksrundture (afstanden til datacentret betyder noget), gateway-overhead og køtid på delt kapacitet - så klientmålte tal afviger altid fra server-side tal. Uafhængige benchmarks som Artificial Analysis publicerer deres præcise workloads (tests med 1k og 10k input-tokens, målt 8 gange dagligt, rapporteret som 72-timers medianer) - den standard vores egne publicerede benchmarks følger.

Kilder

Relaterede begreber

Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.

Klar til at bygge fremtidens AI i Europa?

Slut dig til fremsynede organisationer, der deployer suveræn AI med performance i verdensklasse