Gemma 4 31B

Il modello denso aperto più capace di Google

Ragionamento di classe frontier, capacità multimodali native e prestazioni di codifica pronte per la produzione. Costruito sulla stessa base di ricerca di Gemini 3, ora in esecuzione su infrastruttura sovrana UE.

Perché Gemma 4 31B

Il modello denso aperto più capace di Google DeepMind combina ragionamento avanzato con comprensione multimodale. Ideale per flussi di lavoro agentici che richiedono sia velocità che intelligenza.

Ragionamento avanzato

Modalità di pensiero configurabile per pianificazione multi-step e risoluzione di problemi complessi. Regola la profondità del ragionamento in base a se il tuo carico di lavoro richiede deliberazione profonda o risposta rapida.

Multimodale nativo

Elabora testo e immagini insieme per comprensione documenti, analisi visiva, estrazione grafici e output dati strutturati. Perfetto per flussi di lavoro visione-più-ragionamento.

Flussi di lavoro agentici

Chiamate funzione native, output JSON strutturato e supporto system-prompt. Costruisci agenti autonomi che interagiscono affidabilmente con strumenti e API usando framework come OpenClaw e CrewAI.

Pensiero configurabile

Attiva o disattiva la modalità pensiero in base ai requisiti del compito. Abilita per ragionamento complesso, disabilita per applicazioni sensibili alla latenza che richiedono risposte rapide.

31B

Parametri (Dense)

128K

Finestra di contesto

30%+

Più veloce su Infercom

vs. provider più veloce successivo (Artificial Analysis)

Prestazioni benchmark

Punteggi di classe frontier in benchmark di ragionamento, codifica e conoscenza. Tutti i punteggi dalla valutazione Google DeepMind.

MMLU Pro

85.2%

Advanced knowledge reasoning

AIME 2026

89.2%

Mathematical reasoning (no tools)

LiveCodeBench v6

80.0%

Production coding tasks

GPQA Diamond

84.3%

Graduate-level science QA

Codeforces ELO

2150

Competitive programming

Visualizza dettagli benchmark completi

Quando usare Gemma 4 31B

Gemma 4 eccelle in compiti che richiedono ragionamento, visione o capacità agentiche. L'architettura densa consente fine-tuning e deployment efficienti.

Assistente codice

Codifica pronta per la produzione

Trasforma qualsiasi workstation in un assistente codice di classe frontier. Ottime prestazioni su benchmark LiveCodeBench e Codeforces rendono Gemma 4 ideale per flussi di lavoro di codifica agentici con Claude Code o strumenti simili.

Scopri di più

Elaborazione documenti

Visione + Ragionamento

Estrai dati strutturati da grafici, documenti e screenshot. Combina comprensione visiva con ragionamento per restituire output JSON pulito per flussi di lavoro automatizzati.

AI agentica

Agenti autonomi

Chiamate funzione native e uso strumenti consentono di costruire agenti autonomi che interagiscono con API e servizi esterni. Compatibile con OpenClaw, CrewAI e altri framework multi-agente.

Compiti complessi

Ragionamento matematico e scientifico

89,2% su AIME 2026 ragionamento matematico e 84,3% su GPQA Diamond QA scientifico. Abilita la modalità pensiero per problemi complessi multi-step che richiedono deliberazione profonda.

Modalità pensiero: quando abilitare

Pensiero attivo

Compiti di ragionamento complessi, problemi matematici, pianificazione multi-step, decisioni di architettura codice. Vale la latenza extra per l'accuratezza.

Pensiero disattivo

Applicazioni sensibili alla latenza, query semplici, pipeline ad alto throughput, interazioni real-time. Risposta rapida senza overhead di deliberazione.

Come abilitare la modalità di pensiero

response = client.chat.completions.create(
    model="gemma-4-31B-it",
    messages=[{"role": "user", "content": "Your prompt"}],
    extra_body={"chat_template_kwargs": {"enable_thinking": True}},
)

Imposta enable_thinking su true tramite chat_template_kwargs. Con l'SDK OpenAI passalo in extra_body; con chiamate API dirette mettilo al livello principale. Documentazione sul reasoning

Prezzi

Licenza Apache 2.0 con prezzi trasparenti basati sull'uso. Nessun costo nascosto.

Modello	Input (per 1M)	Output (per 1M)	Contesto
Gemma 4 31B (Infercom)	€0.20	€0.35	128K

Prezzi in EUR IVA esclusa. Deployment sovrano UE con piena conformità GDPR.

Deployment sovrano UE

Gemma 4 31B gira sull'infrastruttura UE dedicata di Infercom. I tuoi dati non lasciano mai la giurisdizione europea.

Ospitato in Germania (Equinix Monaco 4)
Piena conformità GDPR con DPO basato in UE
Nessuna esposizione al US CLOUD Act
Infrastruttura certificata ISO 27001
Accordo trattamento dati disponibile

ISO 27001

Conforme GDPR

Germania

SambaNova RDU

Inizia con Gemma 4

quickstart.py

from openai import OpenAI

client = OpenAI(
    api_key="your-infercom-key",
    base_url="https://api.infercom.ai/v1"
)

response = client.chat.completions.create(
    model="gemma-4-31B-it",
    messages=[{"role": "user", "content": "Your prompt here"}],
    max_tokens=4096
)

print(response.choices[0].message.content)

Compatibilità drop-in API OpenAI. Cambia la tua base URL e inizia a usare Gemma 4 in pochi minuti. Nessuna modifica al codice richiesta.

Livello gratuito disponibile. Pay-as-you-go senza impegni.

Domande frequenti

Cos'è Gemma 4 31B?

Gemma 4 31B è il modello denso aperto più capace di Google DeepMind, costruito sulla stessa base di ricerca di Gemini 3. Presenta 31 miliardi di parametri, finestra di contesto 128K, capacità multimodali native (testo e visione) e modalità di pensiero configurabile per compiti di ragionamento complessi.

Come si confronta Gemma 4 con Gemma 3?

Gemma 4 rappresenta un salto significativo rispetto a Gemma 3 con punteggi benchmark di classe frontier: 85,2% su MMLU Pro, 89,2% su AIME 2026 ragionamento matematico e 80% su LiveCodeBench v6. Aggiunge capacità multimodali native, modalità di pensiero configurabile e supporto migliorato per flussi di lavoro agentici con chiamate funzione native.

Gemma 4 è multimodale?

Sì. Gemma 4 31B elabora nativamente sia testo che immagini nello stesso contesto. Questo consente comprensione documenti, analisi visiva, estrazione grafici e output dati strutturati da immagini senza richiedere modelli di visione separati.

Cos'è la modalità di pensiero e come la abilito?

La modalità di pensiero è una funzione configurabile che consente un ragionamento più profondo per compiti complessi. Quando abilitata, Gemma 4 delibera prima di rispondere su problemi multi-step, ragionamento matematico e decisioni di architettura codice. Abilitala passando enable_thinking: true tramite chat_template_kwargs (in extra_body con l'SDK OpenAI, o al livello principale per chiamate API dirette). Per applicazioni sensibili alla latenza, lasciala disattivata per risposte più veloci.

I miei dati sono archiviati nell'UE?

Sì. Infercom esegue Gemma 4 31B su infrastruttura dedicata in Germania (Equinix Monaco 4). I tuoi dati non lasciano mai la giurisdizione europea, con piena conformità GDPR, nessuna esposizione al US CLOUD Act e infrastruttura certificata ISO 27001. Un accordo di trattamento dati è disponibile su richiesta.

Gemma 4 31B

Perché Gemma 4 31B

Ragionamento avanzato

Multimodale nativo

Flussi di lavoro agentici

Pensiero configurabile

Prestazioni benchmark

Quando usare Gemma 4 31B

Modalità pensiero: quando abilitare

Prezzi

Deployment sovrano UE

Inizia con Gemma 4

Domande frequenti

Risorse correlate

Benchmark prestazioni

Guida codifica agentica

Documentazione API

Dettagli prezzi

Pronto a Costruire il Futuro dell'AI in Europa?