Inferenz vs. Training
Maschinelles Lernen hat zwei grundlegend verschiedene Phasen. Das Training passt die Parameter eines Modells anhand großer Datensätze an, bis sein Verhalten den Mustern in den Daten entspricht - eine massive, einmalige (oder periodische) Berechnung. Die Inferenz wendet das fertige Modell an: Die Gewichte sind eingefroren, eine Eingabe geht hinein, eine Ausgabe kommt heraus. IBMs Definition trifft es gut: Jeder Fall, in dem ein KI-Modell tatsächlich Ausgaben erzeugt oder Entscheidungen in einer realen Anwendung trifft, ist Inferenz.
Gelegentlich liest man auch "Inferencing" - der Standardbegriff unter Praktikern ist schlicht Inferenz. Bei LLMs bedeutet Inferenz konkret das Generieren von Token: Das Modell verarbeitet Ihren Prompt (Prefill) und erzeugt dann die Antwort Token für Token (Decode).
Warum Inferenz der operativ entscheidende Workload ist
Das Training macht die Schlagzeilen, aber die Inferenz ist der Punkt, an dem KI auf die Produktion trifft - und an dem sich Kosten und Geschwindigkeit vervielfachen. Ein Modell wird einmal trainiert; es bedient Millionen von Anfragen. Jede Nutzerinteraktion, jeder Agentenschritt, jeder Pipeline-Lauf zahlt die Latenz und die Kosten der Inferenz erneut. Da KI sich zunehmend in Richtung agentischer Workloads verschiebt, die weit mehr Token pro Aufgabe erzeugen, dominiert die Ökonomie des Servings - Token pro Sekunde, Kosten pro Token, Energie pro Token - immer stärker die Ökonomie der KI insgesamt.
Inferenz beansprucht die Hardware auch anders als Training. Training ist rechengebundene Parallelarbeit, in der GPUs glänzen. LLM-Inferenz wird von der speicherbandbreitengebundenen Decode-Phase dominiert - weshalb Hardware, die speziell für Inferenz entwickelt wurde, wie die RDU-Architektur, auf der unsere Plattform läuft, universelle Beschleuniger bei Geschwindigkeit und Effizienz für diesen Workload übertreffen kann.
Inferenz messen
Die Inference-Performance wird anhand der Metriken gemessen, die dieses Glossar abdeckt: Zeit bis zum ersten Token (Reaktionsfähigkeit), Inter-Token-Latenz und Ausgabe-Durchsatz (Generierungsgeschwindigkeit) sowie End-to-End-Latenz (gesamte Antwortzeit). Auch der Ort der Ausführung zählt - Inferenz verarbeitet bei jeder Anfrage Ihre echten Produktionsdaten, weshalb Datenresidenz und Jurisdiktion Inferenz-Fragen sind: Das Modell, das Ihre Nutzer bedient, verarbeitet alles, was diese übermitteln.
Quellen
Verwandte Begriffe
Inferenzgeschwindigkeit
Der Oberbegriff: TTFT, Inter-Token-Latenz und Durchsatz - und welche Metrik wann zählt.
Prefill vs. Decode
Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.
Token pro Sekunde
Die Standardeinheit für die LLM-Generierungsgeschwindigkeit - und warum dieselbe Zahl zwei verschiedene Dinge bedeuten kann.
RDU (Reconfigurable Dataflow Unit)
SambaNovas KI-Prozessor - speziell entwickelte KI-Chips für Dataflow-Ausführung statt befehlsweiser Verarbeitung.
Erfahren Sie, wie SambaNovas Dataflow-Architektur die Ökonomie der Inferenz verändert - und warum wir darauf aufbauen.