Et svars anatomi

Hvert LLM-svar har to faser. Først behandler modellen hele din prompt i ét parallelt gennemløb (prefill) - det bestemmer time to first token. Derefter genererer den output én token ad gangen (decode) - hastigheden af denne fase er inter-token latency, normalt rapporteret som output tokens per sekund. Den samlede svartid er cirka TTFT plus antallet af genererede tokens ganget med tiden per token.

Faserne belaster hardware forskelligt: prefill er typisk compute-bound, mens decode typisk er bundet af hukommelsesbåndbredde ved almindelige batch-størrelser - for hver ny token skal hardwaren flytte modelvægtene fra hukommelsen. Det er derfor, den samme hardware kan have fremragende prefill-performance og middelmådig genereringshastighed.

Hvilken metrik betyder noget for hvilket workload

For interaktiv chat dominerer TTFT opfattelsen - brugere bemærker det tavse hul, før output begynder, langt mere end streaming-hastigheden. For voice-agenter betyder begge noget, og budgetterne er stramme. For agentiske workloads - coding-agenter, tool-calling-pipelines, autonome workflows - dominerer output-hastigheden: agenten skal modtage hver token i hvert trin, før den kan handle, så genereringshastigheden forstærkes gennem hele kæden.

På vores München-infrastruktur publicerer vi alle tre tal per model: for gpt-oss-120b 388 ms TTFT, 713 tok/s output throughput og 1,789 s end-to-end for en forespørgsel med 10.000 input-tokens / 1.000 output-tokens (server-side p50).

Ærlig måling

Hastighedstal er kun sammenlignelige, når workloadet er angivet: promptlængde ændrer TTFT, outputlængde ændrer balancen mellem TTFT og generering, og samtidighed ændrer alt. End-to-end latency inkluderer derudover bidrag uden for modellen - netværksrundture (afstanden til datacentret betyder noget), gateway-overhead og køtid på delt kapacitet - så klientmålte tal afviger altid fra server-side tal. Uafhængige benchmarks som Artificial Analysis publicerer deres præcise workloads (tests med 1k og 10k input-tokens, målt 8 gange dagligt, rapporteret som 72-timers medianer) - den standard vores egne publicerede benchmarks følger.

Kilder

Videre læsning

Målte benchmarks LLM-inferenshastighed forklaret Sådan vurderer du en inferensudbyder

Relaterede begreber

TTFT (Time to First Token)

Hvor længe en bruger venter mellem at sende en forespørgsel og se den første token af svaret.

Inter-Token Latency (ITL)

Det gennemsnitlige tidsinterval mellem på hinanden følgende tokens under generering - også kaldet TPOT.

Tokens per sekund

Standardenheden for LLM-genereringshastighed - og hvorfor det samme tal kan betyde to forskellige ting.

Prefill vs. Decode

LLM-inferencens to faser - parallel prompt-behandling vs. token-for-token-generering.

Parametre

En models lærte vægte - det grove mål for dens størrelse og kapacitet og den direkte drivkraft bag dens hukommelse, hastighed og omkostning.

Se disse metrikker målt live på vores EU-infrastruktur - reelle tal fra produktionshardware, uafhængigt verificeret.

Inference-hastighed

Et svars anatomi

Hvilken metrik betyder noget for hvilket workload

Ærlig måling

Kilder

Relaterede begreber

Klar til at bygge fremtidens AI i Europa?