gpt-oss-120b - Das Arbeitstier

Gebaut für Agenten, nicht für Editoren.

OpenAIs erstes Open-Weight-Modell, mit 700+ Token/Sek auf EU-Infrastruktur. Zuverlässige Leistung ohne Flagship-Kosten. Bestes Preis-Leistungs-Verhältnis.

OpenAI-Qualität, Open-Weight-Freiheit

gpt-oss-120b ist OpenAIs erstes Open-Weight-Modell - Apache 2.0 lizenziert, entwickelt für produktive agentische Workloads. Es ist nicht das auffälligste Modell, aber eines, auf das Sie sich Tag für Tag verlassen können.

Integriertes Reasoning

Chain-of-Thought-Reasoning mit einstellbaren Aufwandsstufen - optimieren Sie für Geschwindigkeit oder Genauigkeit pro Aufgabe.

Produktionsreif

Erreicht GPT-4o bei den meisten Aufgaben. Übertrifft es bei reasoning-lastigen Benchmarks.

Bester Wert

Bestes Preis-Intelligenz-Verhältnis laut Artificial Analysis.

Effizient durch Design

Gesamtparameter	117B
Aktive Parameter	5.1B per forward pass
Architektur	Mixture of Experts (MoE)
Experten	128 experts, Top-4 routing per token
Schichten	36
Kontextlänge	131K tokens
Lizenz	Apache 2.0

EU-gehostetSchnellstes Modell

Gemessen auf EU-Infrastruktur

Output-Durchsatz

713tok/s

Zeit bis zum ersten Token

388ms

End-to-End-Latenz

1.789s

Kontextlänge

131Ktokens

10K Input / 1K Output, 1 gleichzeitig, 10 Anfragen

Bis zu 772 Tok/s bei kürzeren Prompts. Zuletzt gemessen: April 2026.

Warum es so schnell ist

Die MoE-Architektur bedeutet 117B-Modellqualität bei nur 5,1B aktiven Parametern pro Anfrage - deshalb ist es so schnell.

22x weniger aktive Parameter pro Inferenz
Geringere Speicherbandbreitenanforderungen
Experten-Routing optimiert für jeden Token
Gleiche Qualität, Bruchteil der Rechenleistung

The architecture behind 713 tok/s →

Eigenen Benchmark durchführen

Nicht für Entwickler. Für Agenten.

"If you're building a public-facing AI agent, gpt-oss is your best bet - it's the best privately hostable model that functions on a single high-end GPU in production."
- Tigris

Reasoning-Kontrolle

Denkaufwand (niedrig/mittel/hoch) pro Aufgabe anpassen

Function Calling

Native Tool-Nutzung für agentische Workflows

Strukturierte Ausgaben

JSON-Modus für zuverlässiges Parsing

Web Browsing

Eingebaute Fähigkeit für Research-Agenten

Websites navigieren, Daten extrahieren und mehrstufige Rechercheaufgaben autonom durchführen.

Code-Ausführung

Python-Ausführung für Datenanalyse-Agenten

Python in einer Sandbox-Umgebung für Datenverarbeitung, Berechnungen und Analysen ausführen.

Das richtige Modell für die richtige Aufgabe

Nicht jede Anfrage braucht Ihr teuerstes Modell. Smarte Teams nutzen gpt-oss-120b als Teil einer Multi-Modell-Strategie.

"The technical quality is undeniable, and the chain-of-thought reasoning system is genuinely innovative in the open-weight space."
- Apatero (2026 Review)

Balanced Mode

Im Balanced-Modus: Erreicht GPT-4o bei den meisten Aufgaben

Deep Mode

Im Deep-Modus: Übertrifft GPT-4o beim Reasoning (MATH, HumanEval)

Cost Efficiency

Zu einem Bruchteil der Kosten proprietärer Modelle

Szenario	Modellwahl
Komplexes Reasoning	gpt-oss-120b (hoher Aufwand)
Standardaufgaben	gpt-oss-120b (mittlerer Aufwand)
Einfache Anfragen	gpt-oss-120b (niedriger Aufwand)
Premium-Aufgaben	MiniMax M2.7 Ultraspeed

"We optimized workflows twice: once for accuracy + latency, and once for accuracy + cost-capturing the tradeoffs that matter most in real-world deployments."
- DataRobot

OpenAI Open-Weight auf EU-Infrastruktur

OpenAIs Open-Weight-Modell nutzen, ohne Daten in die USA zu senden:

Gehostet in Deutschland auf Infercom-eigener Infrastruktur
Vollständige DSGVO-Konformität mit EU-basiertem DPA
Kein US CLOUD Act-Risiko
ISO 27001 zertifiziert
Apache 2.0 Lizenz - volle Freiheit zum Deployen

ISO 27001 Zertifiziert

DSGVO-konform

Deutsches Rechenzentrum

Apache 2.0 Lizenz

In 2 Minuten starten

quickstart.py

from openai import OpenAI

client = OpenAI(
    api_key="your-infercom-key",
    base_url="https://api.infercom.ai/v1"
)

response = client.chat.completions.create(
    model="gpt-oss-120b",
    messages=[{"role": "user", "content": "Your prompt here"}],
    max_tokens=4096
)

print(response.choices[0].message.content)

OpenAI-kompatible API. Drop-in-Ersatz für Ihren bestehenden Code.

€5 Startguthaben. Keine Kreditkarte erforderlich.

gpt-oss-120b - Das Arbeitstier

OpenAI-Qualität, Open-Weight-Freiheit

Integriertes Reasoning

Produktionsreif

Bester Wert

Effizient durch Design

Gemessen auf EU-Infrastruktur

Warum es so schnell ist

Nicht für Entwickler. Für Agenten.

Das richtige Modell für die richtige Aufgabe

OpenAI Open-Weight auf EU-Infrastruktur

In 2 Minuten starten

Mehr erfahren

Performance-Benchmarks

MiniMax M2.7 Ultraspeed

API-Dokumentation

Preise

Bereit, die Zukunft der AI in Europa zu gestalten?