Glossario
Concetti di Serving

Inferenza

L'inferenza è l'uso di un modello AI addestrato per produrre output su nuovi input - ogni risposta di chat, completamento di codice o chiamata API a un LLM è inferenza. È distinta dall'addestramento, che crea il modello in primo luogo: l'addestramento avviene una volta, l'inferenza viene eseguita a ogni singola richiesta.

Inferenza vs. addestramento

Il machine learning ha due fasi fondamentalmente diverse. L'addestramento regola i parametri di un modello su grandi dataset finché il suo comportamento non corrisponde ai pattern nei dati - un calcolo massiccio, una tantum (o periodico). L'inferenza applica il modello finito: i pesi sono congelati, entra un input, esce un output. La definizione di IBM lo coglie bene: ogni istanza di un modello AI che genera effettivamente output o prende decisioni in un'applicazione reale costituisce inferenza.

A volte la troverete chiamata "inferencing" - il termine standard tra i professionisti è semplicemente inferenza. Per gli LLM in particolare, inferenza significa generare token: il modello elabora il vostro prompt (prefill), poi produce la risposta un token alla volta (decode).

Perché l'inferenza è il carico di lavoro che conta a livello operativo

L'addestramento fa notizia, ma l'inferenza è dove l'AI incontra la produzione - e dove costi e velocità si accumulano. Un modello viene addestrato una volta; serve milioni di richieste. Ogni interazione utente, ogni step di un agente, ogni esecuzione di pipeline paga di nuovo la latenza e il costo dell'inferenza. Man mano che l'AI si sposta verso carichi di lavoro agentici che generano molti più token per attività, l'economia del serving - token al secondo, costo per token, energia per token - domina sempre più l'economia dell'AI nel suo complesso.

L'inferenza sollecita inoltre l'hardware in modo diverso rispetto all'addestramento. L'addestramento è lavoro parallelo limitato dal calcolo, in cui le GPU eccellono. L'inferenza LLM è dominata dalla fase di decode, limitata dalla larghezza di banda della memoria - ed è per questo che hardware progettato specificamente per l'inferenza, come l'architettura RDU su cui funziona la nostra piattaforma, può superare gli acceleratori general-purpose in velocità ed efficienza per questo carico di lavoro.

Misurare l'inferenza

Le prestazioni di inferenza si misurano lungo le metriche che questo glossario copre: Time to First Token (reattività), latenza inter-token e Throughput in Output (velocità di generazione), e Latenza End-to-End (tempo totale di completamento). Conta anche dove il modello viene eseguito - l'inferenza elabora i vostri dati di produzione reali a ogni richiesta, motivo per cui residenza dei dati e giurisdizione sono questioni di inferenza: il modello che serve i vostri utenti gestisce tutto ciò che essi inviano.

Fonti

Termini correlati

Scopri come l'architettura dataflow di SambaNova cambia l'economia dell'inferenza - e perché abbiamo costruito su di essa.

Pronto a Costruire il Futuro dell'AI in Europa?

Unisciti alle organizzazioni lungimiranti che implementano AI sovrana con prestazioni di livello mondiale