Glossar zur Inference-Performance
Klare Definitionen der Metriken und Konzepte hinter der LLM-Inference-Performance - von TTFT bis zur Dataflow-Architektur. Jeder Eintrag ist mit veröffentlichten Quellen und echten Benchmark-Daten aus unserer EU-Infrastruktur belegt.
Performance-Metriken
TTFT (Zeit bis zum ersten Token)
Wie lange ein Nutzer zwischen dem Absenden einer Anfrage und dem Erscheinen des ersten Tokens der Antwort wartet.
Inter-Token-Latenz (ITL)
Der durchschnittliche Zeitabstand zwischen aufeinanderfolgenden Token während der Generierung - auch TPOT genannt.
Token pro Sekunde
Die Standardeinheit für die LLM-Generierungsgeschwindigkeit - und warum dieselbe Zahl zwei verschiedene Dinge bedeuten kann.
Inferenzgeschwindigkeit
Der Oberbegriff: TTFT, Inter-Token-Latenz und Durchsatz - und welche Metrik wann zählt.
Serving-Konzepte
Inferenz
Der Betrieb eines trainierten KI-Modells zur Erzeugung von Ausgaben - der Produktions-Workload der KI, dessen Kosten und Geschwindigkeit sich mit der Nutzung vervielfachen.
Durchsatz (LLM-Serving)
Token pro Sekunde in zwei Bedeutungen: Ausgabe-Durchsatz pro Anfrage vs. systemweite Kapazität - und wie Batching das eine gegen das andere eintauscht.
Prefill vs. Decode
Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.
Latenz vs. Durchsatz
Der fundamentale Serving-Zielkonflikt: Gesamtleistung des Systems vs. Geschwindigkeit jedes einzelnen Nutzers.
Architektur
RDU (Reconfigurable Dataflow Unit)
SambaNovas KI-Prozessor - speziell entwickelte KI-Chips für Dataflow-Ausführung statt befehlsweiser Verarbeitung.
Dataflow-Architektur
Das Ausführungsmodell, bei dem Daten als Pipeline durch die Operationen strömen - und die Kernel-für-Kernel-Roundtrips der GPU-Ausführung entfallen.