Inferenz vs. Training

Maschinelles Lernen hat zwei grundlegend verschiedene Phasen. Das Training passt die Parameter eines Modells anhand großer Datensätze an, bis sein Verhalten den Mustern in den Daten entspricht - eine massive, einmalige (oder periodische) Berechnung. Die Inferenz wendet das fertige Modell an: Die Gewichte sind eingefroren, eine Eingabe geht hinein, eine Ausgabe kommt heraus. IBMs Definition trifft es gut: Jeder Fall, in dem ein KI-Modell tatsächlich Ausgaben erzeugt oder Entscheidungen in einer realen Anwendung trifft, ist Inferenz.

Gelegentlich liest man auch "Inferencing" - der Standardbegriff unter Praktikern ist schlicht Inferenz. Bei LLMs bedeutet Inferenz konkret das Generieren von Token: Das Modell verarbeitet Ihren Prompt (Prefill) und erzeugt dann die Antwort Token für Token (Decode).

Warum Inferenz der operativ entscheidende Workload ist

Das Training macht die Schlagzeilen, aber die Inferenz ist der Punkt, an dem KI auf die Produktion trifft - und an dem sich Kosten und Geschwindigkeit vervielfachen. Ein Modell wird einmal trainiert; es bedient Millionen von Anfragen. Jede Nutzerinteraktion, jeder Agentenschritt, jeder Pipeline-Lauf zahlt die Latenz und die Kosten der Inferenz erneut. Da KI sich zunehmend in Richtung agentischer Workloads verschiebt, die weit mehr Token pro Aufgabe erzeugen, dominiert die Ökonomie des Servings - Token pro Sekunde, Kosten pro Token, Energie pro Token - immer stärker die Ökonomie der KI insgesamt.

Inferenz beansprucht die Hardware auch anders als Training. Training ist rechengebundene Parallelarbeit, in der GPUs glänzen. LLM-Inferenz wird von der speicherbandbreitengebundenen Decode-Phase dominiert - weshalb Hardware, die speziell für Inferenz entwickelt wurde, wie die RDU-Architektur, auf der unsere Plattform läuft, universelle Beschleuniger bei Geschwindigkeit und Effizienz für diesen Workload übertreffen kann.

Inferenz messen

Die Inference-Performance wird anhand der Metriken gemessen, die dieses Glossar abdeckt: Zeit bis zum ersten Token (Reaktionsfähigkeit), Inter-Token-Latenz und Ausgabe-Durchsatz (Generierungsgeschwindigkeit) sowie End-to-End-Latenz (gesamte Antwortzeit). Auch der Ort der Ausführung zählt - Inferenz verarbeitet bei jeder Anfrage Ihre echten Produktionsdaten, weshalb Datenresidenz und Jurisdiktion Inferenz-Fragen sind: Das Modell, das Ihre Nutzer bedient, verarbeitet alles, was diese übermitteln.

Inferenz

Inferenz vs. Training

Warum Inferenz der operativ entscheidende Workload ist

Inferenz messen

Quellen

Verwandte Begriffe

Bereit, die Zukunft der AI in Europa zu gestalten?