Developer-Ressourcen

Glossar zur EU-souveränen AI-Inferenz

Klare, belegte Definitionen rund um EU-souveräne AI-Inferenz - von Data Residency, DSGVO und Zero Data Retention bis TTFT, Durchsatz und Dataflow-Architektur. Jeder Eintrag ist mit veröffentlichten Quellen und echten Benchmark-Daten aus unserer EU-Infrastruktur belegt.

Souveränität & Compliance

Data Residency

Wo Ihre Daten physisch gespeichert und verarbeitet werden - ein notwendiger Teil von Souveränität, aber nicht dasselbe wie Kontrolle darüber, wer rechtlich darauf zugreifen kann.

Auftragsverarbeitungsvertrag (AVV / DPA)

Der Auftragsverarbeitungsvertrag (AVV), englisch Data Processing Agreement (DPA), regelt, wie ein Inferenz-Anbieter die personenbezogenen Daten in Ihren Prompts verarbeiten darf - und ist ein Grundtest, ob ein Anbieter enterprise-tauglich ist.

DSGVO (GDPR) für AI-Inferenz

Was Europas Datenschutzrecht verlangt, wenn Ihre Prompts personenbezogene Daten enthalten - eine Rechtsgrundlage, einen Auftragsverarbeitungsvertrag und Verarbeitung, die in Reichweite des EU-Rechts bleibt.

Zero Data Retention (ZDR)

Wenn ein Inferenz-Anbieter Ihre Prompts und Ausgaben nach der Verarbeitung nicht speichert und nie darauf trainiert - Ihre Datenexposition schrumpft auf den Moment der Verarbeitung.

Performance-Metriken

TTFT (Zeit bis zum ersten Token)

Wie lange ein Nutzer zwischen dem Absenden einer Anfrage und dem Erscheinen des ersten Tokens der Antwort wartet.

Inter-Token-Latenz (ITL)

Der durchschnittliche Zeitabstand zwischen aufeinanderfolgenden Token während der Generierung - auch TPOT genannt.

Token pro Sekunde

Die Standardeinheit für die LLM-Generierungsgeschwindigkeit - und warum dieselbe Zahl zwei verschiedene Dinge bedeuten kann.

Inferenzgeschwindigkeit

Der Oberbegriff: TTFT, Inter-Token-Latenz und Durchsatz - und welche Metrik wann zählt.

Architektur

RDU (Reconfigurable Dataflow Unit)

SambaNovas KI-Prozessor - speziell entwickelte KI-Chips für Dataflow-Ausführung statt befehlsweiser Verarbeitung.

Dataflow-Architektur

Das Ausführungsmodell, bei dem Daten als Pipeline durch die Operationen strömen - und die Kernel-für-Kernel-Roundtrips der GPU-Ausführung entfallen.

Modelle & Inferenz

Inferenz

Der Betrieb eines trainierten KI-Modells zur Erzeugung von Ausgaben - der Produktions-Workload der KI, dessen Kosten und Geschwindigkeit sich mit der Nutzung vervielfachen.

Durchsatz (LLM-Serving)

Token pro Sekunde in zwei Bedeutungen: Ausgabe-Durchsatz pro Anfrage vs. systemweite Kapazität - und wie Batching das eine gegen das andere eintauscht.

Prefill vs. Decode

Die zwei Phasen der LLM-Inferenz - parallele Prompt-Verarbeitung vs. Token-für-Token-Generierung.

Latenz vs. Durchsatz

Der fundamentale Serving-Zielkonflikt: Gesamtleistung des Systems vs. Geschwindigkeit jedes einzelnen Nutzers.

Open-Weight-Modell

Ein Modell, dessen trainierte Parameter veröffentlicht sind, sodass es jeder selbst betreiben kann - die technische Basis souveräner Inferenz.

Context Window

Die maximale Textmenge in Tokens, die ein Modell auf einmal berücksichtigt - Prompt plus Ausgabe. Die Länge prägt Geschwindigkeit und Kosten direkt.

Parameter

Die gelernten Weights eines Modells - das grobe Maß für Größe und Kapazität und der direkte Treiber von Speicher, Geschwindigkeit und Kosten.

Glossar zur EU-souveränen AI-Inferenz

Souveränität & Compliance

Performance-Metriken

Architektur

Modelle & Inferenz

Bereit, die Zukunft der AI in Europa zu gestalten?