OpenAI-Qualität, Open-Weight-Freiheit
gpt-oss-120b ist OpenAIs erstes Open-Weight-Modell — Apache 2.0 lizenziert, entwickelt für produktive agentische Workloads. Es ist nicht das auffälligste Modell, aber eines, auf das Sie sich Tag für Tag verlassen können.
Integriertes Reasoning
Chain-of-Thought-Reasoning mit einstellbaren Aufwandsstufen — optimieren Sie für Geschwindigkeit oder Genauigkeit pro Aufgabe.
Produktionsreif
Erreicht GPT-4o bei den meisten Aufgaben. Übertrifft es bei reasoning-lastigen Benchmarks.
Bester Wert
Bestes Preis-Intelligenz-Verhältnis laut Artificial Analysis.
Effizient durch Design
| Gesamtparameter | 117B |
| Aktive Parameter | 5.1B per forward pass |
| Architektur | Mixture of Experts (MoE) |
| Experten | 128 experts, Top-4 routing per token |
| Schichten | 36 |
| Kontextlänge | 131K tokens |
| Lizenz | Apache 2.0 |
Gemessen auf EU-Infrastruktur
10K Input / 1K Output, 1 gleichzeitig, 10 Anfragen
Bis zu 772 Tok/s bei kürzeren Prompts. Zuletzt gemessen: April 2026.
Warum es so schnell ist
Die MoE-Architektur bedeutet 117B-Modellqualität bei nur 5,1B aktiven Parametern pro Anfrage — deshalb ist es so schnell.
- 22x weniger aktive Parameter pro Inferenz
- Geringere Speicherbandbreitenanforderungen
- Experten-Routing optimiert für jeden Token
- Gleiche Qualität, Bruchteil der Rechenleistung
Nicht für Entwickler. Für Agenten.
"If you're building a public-facing AI agent, gpt-oss is your best bet — it's the best privately hostable model that functions on a single high-end GPU in production."
— Tigris
Reasoning-Kontrolle
Denkaufwand (niedrig/mittel/hoch) pro Aufgabe anpassen
Function Calling
Native Tool-Nutzung für agentische Workflows
Strukturierte Ausgaben
JSON-Modus für zuverlässiges Parsing
Web Browsing
Eingebaute Fähigkeit für Research-Agenten
Websites navigieren, Daten extrahieren und mehrstufige Rechercheaufgaben autonom durchführen.
Code-Ausführung
Python-Ausführung für Datenanalyse-Agenten
Python in einer Sandbox-Umgebung für Datenverarbeitung, Berechnungen und Analysen ausführen.
Das richtige Modell für die richtige Aufgabe
Nicht jede Anfrage braucht Ihr teuerstes Modell. Smarte Teams nutzen gpt-oss-120b als Teil einer Multi-Modell-Strategie.
"The technical quality is undeniable, and the chain-of-thought reasoning system is genuinely innovative in the open-weight space."
— Apatero (2026 Review)
Balanced Mode
Im Balanced-Modus: Erreicht GPT-4o bei den meisten Aufgaben
Deep Mode
Im Deep-Modus: Übertrifft GPT-4o beim Reasoning (MATH, HumanEval)
Cost Efficiency
Zu einem Bruchteil der Kosten proprietärer Modelle
| Szenario | Modellwahl |
|---|---|
| Komplexes Reasoning | gpt-oss-120b (hoher Aufwand) |
| Standardaufgaben | gpt-oss-120b (mittlerer Aufwand) |
| Einfache Anfragen | gpt-oss-120b (niedriger Aufwand) |
| Premium-Aufgaben | MiniMax M2.5 |
"We optimized workflows twice: once for accuracy + latency, and once for accuracy + cost—capturing the tradeoffs that matter most in real-world deployments."
— DataRobot
OpenAI Open-Weight auf EU-Infrastruktur
OpenAIs Open-Weight-Modell nutzen, ohne Daten in die USA zu senden:
- Gehostet in Deutschland auf Infercom-eigener Infrastruktur
- Vollständige DSGVO-Konformität mit EU-basiertem DPA
- Kein US CLOUD Act-Risiko
- ISO 27001 zertifiziert
- Apache 2.0 Lizenz — volle Freiheit zum Deployen
In 2 Minuten starten
from openai import OpenAI
client = OpenAI(
api_key="your-infercom-key",
base_url="https://api.infercom.ai/v1"
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[{"role": "user", "content": "Your prompt here"}],
max_tokens=4096
)
print(response.choices[0].message.content)