Inferenza vs. addestramento

Il machine learning ha due fasi fondamentalmente diverse. L'addestramento regola i parametri di un modello su grandi dataset finché il suo comportamento non corrisponde ai pattern nei dati - un calcolo massiccio, una tantum (o periodico). L'inferenza applica il modello finito: i pesi sono congelati, entra un input, esce un output. La definizione di IBM lo coglie bene: ogni istanza di un modello AI che genera effettivamente output o prende decisioni in un'applicazione reale costituisce inferenza.

A volte la troverete chiamata "inferencing" - il termine standard tra i professionisti è semplicemente inferenza. Per gli LLM in particolare, inferenza significa generare token: il modello elabora il vostro prompt (prefill), poi produce la risposta un token alla volta (decode).

Perché l'inferenza è il carico di lavoro che conta a livello operativo

L'addestramento fa notizia, ma l'inferenza è dove l'AI incontra la produzione - e dove costi e velocità si accumulano. Un modello viene addestrato una volta; serve milioni di richieste. Ogni interazione utente, ogni step di un agente, ogni esecuzione di pipeline paga di nuovo la latenza e il costo dell'inferenza. Man mano che l'AI si sposta verso carichi di lavoro agentici che generano molti più token per attività, l'economia del serving - token al secondo, costo per token, energia per token - domina sempre più l'economia dell'AI nel suo complesso.

L'inferenza sollecita inoltre l'hardware in modo diverso rispetto all'addestramento. L'addestramento è lavoro parallelo limitato dal calcolo, in cui le GPU eccellono. L'inferenza LLM è dominata dalla fase di decode, limitata dalla larghezza di banda della memoria - ed è per questo che hardware progettato specificamente per l'inferenza, come l'architettura RDU su cui funziona la nostra piattaforma, può superare gli acceleratori general-purpose in velocità ed efficienza per questo carico di lavoro.

Misurare l'inferenza

Le prestazioni di inferenza si misurano lungo le metriche che questo glossario copre: Time to First Token (reattività), latenza inter-token e Throughput in Output (velocità di generazione), e Latenza End-to-End (tempo totale di completamento). Conta anche dove il modello viene eseguito - l'inferenza elabora i vostri dati di produzione reali a ogni richiesta, motivo per cui residenza dei dati e giurisdizione sono questioni di inferenza: il modello che serve i vostri utenti gestisce tutto ciò che essi inviano.

Fonti

Termini correlati

Velocità di Inferenza

Il termine ombrello: TTFT, latenza inter-token e throughput - e quale conta in quale situazione.

Prefill vs. Decode

Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.

Token al Secondo

L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.

RDU (Reconfigurable Dataflow Unit)

Il processore AI di SambaNova - chip AI costruiti appositamente, progettati per l'esecuzione dataflow invece dell'elaborazione istruzione per istruzione.

Modello Open-Weight

Un modello i cui parametri addestrati sono pubblicati così che chiunque possa eseguirlo da sé - la base tecnica dell'inferenza sovrana.

Scopri come l'architettura dataflow di SambaNova cambia l'economia dell'inferenza - e perché abbiamo costruito su di essa.

Inferenza

Inferenza vs. addestramento

Perché l'inferenza è il carico di lavoro che conta a livello operativo

Misurare l'inferenza

Fonti

Termini correlati

Pronto a Costruire il Futuro dell'AI in Europa?