Glossar
Performance-Metriken

Inferenzgeschwindigkeit

Die Inferenzgeschwindigkeit beschreibt, wie schnell ein LLM-System aus einer Anfrage eine vollständige Antwort macht. Sie ist keine einzelne Zahl: Sie zerfällt in die Zeit bis zum ersten Token (TTFT), die Inter-Token-Latenz (ITL) und die End-to-End-Latenz - und welche Metrik zählt, hängt davon ab, ob ein Mensch oder eine Maschine die Ausgabe konsumiert.

Die Anatomie einer Antwort

Jede LLM-Antwort hat zwei Phasen. Zuerst verarbeitet das Modell Ihren gesamten Prompt in einem parallelen Durchlauf (Prefill) - das bestimmt die Zeit bis zum ersten Token. Dann generiert es die Ausgabe Token für Token (Decode) - die Geschwindigkeit dieser Phase ist die Inter-Token-Latenz, üblicherweise berichtet als Ausgabe-Token pro Sekunde. Die gesamte Antwortzeit ist näherungsweise TTFT plus die Anzahl der generierten Token multipliziert mit der Zeit pro Token.

Die Phasen beanspruchen die Hardware unterschiedlich: Der Prefill ist typischerweise rechengebunden, während der Decode bei üblichen Batch-Größen typischerweise durch die Speicherbandbreite begrenzt ist - für jedes neue Token muss die Hardware die Modellgewichte aus dem Speicher bewegen. Deshalb kann dieselbe Hardware eine exzellente Prefill-Performance und zugleich eine mittelmäßige Generierungsgeschwindigkeit haben.

Welche Metrik für welchen Workload zählt

Bei interaktivem Chat dominiert die TTFT die Wahrnehmung - Nutzer bemerken die stille Lücke vor Beginn der Ausgabe weit stärker als die Streaming-Geschwindigkeit. Bei Voice-Agents zählen beide, und die Budgets sind knapp. Bei agentischen Workloads - Coding-Agents, Tool-Calling-Pipelines, autonome Workflows - dominiert die Ausgabegeschwindigkeit: Der Agent muss jedes Token jedes Schritts erhalten, bevor er handeln kann, sodass sich die Generierungsgeschwindigkeit über die gesamte Kette aufsummiert.

Auf unserer Münchner Infrastruktur veröffentlichen wir alle drei Zahlen pro Modell: für gpt-oss-120b 388 ms TTFT, 713 tok/s Ausgabe-Durchsatz und 1,789 s End-to-End für eine Anfrage mit 10.000 Token Eingabe / 1.000 Token Ausgabe (serverseitig p50).

Ehrlich messen

Geschwindigkeitszahlen sind nur vergleichbar, wenn der Workload angegeben ist: Die Prompt-Länge verändert die TTFT, die Ausgabelänge verändert das Verhältnis von TTFT zu Generierung, und die Parallelität verändert alles. Die End-to-End-Latenz umfasst zusätzlich Faktoren jenseits des Modells - Netzwerk-Roundtrips (die Entfernung zum Rechenzentrum zählt), Gateway-Overhead und Warteschlangenzeit auf geteilter Kapazität -, sodass clientseitig gemessene Zahlen immer von serverseitigen abweichen. Unabhängige Benchmarks wie Artificial Analysis veröffentlichen ihre exakten Workloads (Tests mit 1k und 10k Eingabe-Token, 8-mal täglich gemessen, berichtet als 72-Stunden-Mediane) - der Standard, dem auch unsere eigenen veröffentlichten Benchmarks folgen.

Quellen

Verwandte Begriffe

Sehen Sie diese Metriken live auf unserer EU-Infrastruktur gemessen - echte Zahlen von Produktionshardware, unabhängig verifiziert.

Bereit, die Zukunft der AI in Europa zu gestalten?

Schließen Sie sich zukunftsorientierten Unternehmen an, die Souveräne KI mit Weltklasse-Performance einsetzen