Glossar
Serving-Konzepte

Inferenz

Inferenz ist die Nutzung eines trainierten KI-Modells, um Ausgaben für neue Eingaben zu erzeugen - jede Chat-Antwort, jede Code-Vervollständigung und jeder API-Aufruf an ein LLM ist Inferenz. Sie unterscheidet sich vom Training, das das Modell überhaupt erst erschafft: Training findet einmal statt, Inferenz läuft bei jeder einzelnen Anfrage.

Inferenz vs. Training

Maschinelles Lernen hat zwei grundlegend verschiedene Phasen. Das Training passt die Parameter eines Modells anhand großer Datensätze an, bis sein Verhalten den Mustern in den Daten entspricht - eine massive, einmalige (oder periodische) Berechnung. Die Inferenz wendet das fertige Modell an: Die Gewichte sind eingefroren, eine Eingabe geht hinein, eine Ausgabe kommt heraus. IBMs Definition trifft es gut: Jeder Fall, in dem ein KI-Modell tatsächlich Ausgaben erzeugt oder Entscheidungen in einer realen Anwendung trifft, ist Inferenz.

Gelegentlich liest man auch "Inferencing" - der Standardbegriff unter Praktikern ist schlicht Inferenz. Bei LLMs bedeutet Inferenz konkret das Generieren von Token: Das Modell verarbeitet Ihren Prompt (Prefill) und erzeugt dann die Antwort Token für Token (Decode).

Warum Inferenz der operativ entscheidende Workload ist

Das Training macht die Schlagzeilen, aber die Inferenz ist der Punkt, an dem KI auf die Produktion trifft - und an dem sich Kosten und Geschwindigkeit vervielfachen. Ein Modell wird einmal trainiert; es bedient Millionen von Anfragen. Jede Nutzerinteraktion, jeder Agentenschritt, jeder Pipeline-Lauf zahlt die Latenz und die Kosten der Inferenz erneut. Da KI sich zunehmend in Richtung agentischer Workloads verschiebt, die weit mehr Token pro Aufgabe erzeugen, dominiert die Ökonomie des Servings - Token pro Sekunde, Kosten pro Token, Energie pro Token - immer stärker die Ökonomie der KI insgesamt.

Inferenz beansprucht die Hardware auch anders als Training. Training ist rechengebundene Parallelarbeit, in der GPUs glänzen. LLM-Inferenz wird von der speicherbandbreitengebundenen Decode-Phase dominiert - weshalb Hardware, die speziell für Inferenz entwickelt wurde, wie die RDU-Architektur, auf der unsere Plattform läuft, universelle Beschleuniger bei Geschwindigkeit und Effizienz für diesen Workload übertreffen kann.

Inferenz messen

Die Inference-Performance wird anhand der Metriken gemessen, die dieses Glossar abdeckt: Zeit bis zum ersten Token (Reaktionsfähigkeit), Inter-Token-Latenz und Ausgabe-Durchsatz (Generierungsgeschwindigkeit) sowie End-to-End-Latenz (gesamte Antwortzeit). Auch der Ort der Ausführung zählt - Inferenz verarbeitet bei jeder Anfrage Ihre echten Produktionsdaten, weshalb Datenresidenz und Jurisdiktion Inferenz-Fragen sind: Das Modell, das Ihre Nutzer bedient, verarbeitet alles, was diese übermitteln.

Quellen

Verwandte Begriffe

Erfahren Sie, wie SambaNovas Dataflow-Architektur die Ökonomie der Inferenz verändert - und warum wir darauf aufbauen.

Bereit, die Zukunft der AI in Europa zu gestalten?

Schließen Sie sich zukunftsorientierten Unternehmen an, die Souveräne KI mit Weltklasse-Performance einsetzen