gpt-oss-120b

gpt-oss-120b — Das Arbeitstier

Gebaut für Agenten, nicht für Editoren.

OpenAIs erstes Open-Weight-Modell, mit 700+ Token/Sek auf EU-Infrastruktur. Zuverlässige Leistung ohne Flagship-Kosten. Bestes Preis-Leistungs-Verhältnis.

OpenAI-Qualität, Open-Weight-Freiheit

gpt-oss-120b ist OpenAIs erstes Open-Weight-Modell — Apache 2.0 lizenziert, entwickelt für produktive agentische Workloads. Es ist nicht das auffälligste Modell, aber eines, auf das Sie sich Tag für Tag verlassen können.

Integriertes Reasoning

Chain-of-Thought-Reasoning mit einstellbaren Aufwandsstufen — optimieren Sie für Geschwindigkeit oder Genauigkeit pro Aufgabe.

Produktionsreif

Erreicht GPT-4o bei den meisten Aufgaben. Übertrifft es bei reasoning-lastigen Benchmarks.

Bester Wert

Bestes Preis-Intelligenz-Verhältnis laut Artificial Analysis.

Effizient durch Design

Gesamtparameter117B
Aktive Parameter5.1B per forward pass
ArchitekturMixture of Experts (MoE)
Experten128 experts, Top-4 routing per token
Schichten36
Kontextlänge131K tokens
LizenzApache 2.0
EU-gehostetSchnellstes Modell

Gemessen auf EU-Infrastruktur

Output-Durchsatz
713tok/s
Zeit bis zum ersten Token
388ms
End-to-End-Latenz
1.789s
Kontextlänge
131Ktokens

10K Input / 1K Output, 1 gleichzeitig, 10 Anfragen

Bis zu 772 Tok/s bei kürzeren Prompts. Zuletzt gemessen: April 2026.

Warum es so schnell ist

Die MoE-Architektur bedeutet 117B-Modellqualität bei nur 5,1B aktiven Parametern pro Anfrage — deshalb ist es so schnell.

  • 22x weniger aktive Parameter pro Inferenz
  • Geringere Speicherbandbreitenanforderungen
  • Experten-Routing optimiert für jeden Token
  • Gleiche Qualität, Bruchteil der Rechenleistung

Nicht für Entwickler. Für Agenten.

"If you're building a public-facing AI agent, gpt-oss is your best bet — it's the best privately hostable model that functions on a single high-end GPU in production."

Tigris

Reasoning-Kontrolle

Denkaufwand (niedrig/mittel/hoch) pro Aufgabe anpassen

Function Calling

Native Tool-Nutzung für agentische Workflows

Strukturierte Ausgaben

JSON-Modus für zuverlässiges Parsing

Web Browsing

Eingebaute Fähigkeit für Research-Agenten

Websites navigieren, Daten extrahieren und mehrstufige Rechercheaufgaben autonom durchführen.

Code-Ausführung

Python-Ausführung für Datenanalyse-Agenten

Python in einer Sandbox-Umgebung für Datenverarbeitung, Berechnungen und Analysen ausführen.

Das richtige Modell für die richtige Aufgabe

Nicht jede Anfrage braucht Ihr teuerstes Modell. Smarte Teams nutzen gpt-oss-120b als Teil einer Multi-Modell-Strategie.

"The technical quality is undeniable, and the chain-of-thought reasoning system is genuinely innovative in the open-weight space."

Apatero (2026 Review)

Balanced Mode

Im Balanced-Modus: Erreicht GPT-4o bei den meisten Aufgaben

Deep Mode

Im Deep-Modus: Übertrifft GPT-4o beim Reasoning (MATH, HumanEval)

Cost Efficiency

Zu einem Bruchteil der Kosten proprietärer Modelle

SzenarioModellwahl
Komplexes Reasoninggpt-oss-120b (hoher Aufwand)
Standardaufgabengpt-oss-120b (mittlerer Aufwand)
Einfache Anfragengpt-oss-120b (niedriger Aufwand)
Premium-AufgabenMiniMax M2.5

"We optimized workflows twice: once for accuracy + latency, and once for accuracy + cost—capturing the tradeoffs that matter most in real-world deployments."

DataRobot

OpenAI Open-Weight auf EU-Infrastruktur

OpenAIs Open-Weight-Modell nutzen, ohne Daten in die USA zu senden:

  • Gehostet in Deutschland auf Infercom-eigener Infrastruktur
  • Vollständige DSGVO-Konformität mit EU-basiertem DPA
  • Kein US CLOUD Act-Risiko
  • ISO 27001 zertifiziert
  • Apache 2.0 Lizenz — volle Freiheit zum Deployen
ISO 27001 Zertifiziert
DSGVO-konform
Deutsches Rechenzentrum
Apache 2.0 Lizenz

In 2 Minuten starten

quickstart.py
from openai import OpenAI

client = OpenAI(
    api_key="your-infercom-key",
    base_url="https://api.infercom.ai/v1"
)

response = client.chat.completions.create(
    model="gpt-oss-120b",
    messages=[{"role": "user", "content": "Your prompt here"}],
    max_tokens=4096
)

print(response.choices[0].message.content)

OpenAI-kompatible API. Drop-in-Ersatz für Ihren bestehenden Code.

€5 Startguthaben. Keine Kreditkarte erforderlich.

Bereit, die Zukunft der AI in Europa zu gestalten?

Schließen Sie sich zukunftsorientierten Unternehmen an, die Souveräne KI mit Weltklasse-Performance einsetzen