Inferenza vs. addestramento
Il machine learning ha due fasi fondamentalmente diverse. L'addestramento regola i parametri di un modello su grandi dataset finché il suo comportamento non corrisponde ai pattern nei dati - un calcolo massiccio, una tantum (o periodico). L'inferenza applica il modello finito: i pesi sono congelati, entra un input, esce un output. La definizione di IBM lo coglie bene: ogni istanza di un modello AI che genera effettivamente output o prende decisioni in un'applicazione reale costituisce inferenza.
A volte la troverete chiamata "inferencing" - il termine standard tra i professionisti è semplicemente inferenza. Per gli LLM in particolare, inferenza significa generare token: il modello elabora il vostro prompt (prefill), poi produce la risposta un token alla volta (decode).
Perché l'inferenza è il carico di lavoro che conta a livello operativo
L'addestramento fa notizia, ma l'inferenza è dove l'AI incontra la produzione - e dove costi e velocità si accumulano. Un modello viene addestrato una volta; serve milioni di richieste. Ogni interazione utente, ogni step di un agente, ogni esecuzione di pipeline paga di nuovo la latenza e il costo dell'inferenza. Man mano che l'AI si sposta verso carichi di lavoro agentici che generano molti più token per attività, l'economia del serving - token al secondo, costo per token, energia per token - domina sempre più l'economia dell'AI nel suo complesso.
L'inferenza sollecita inoltre l'hardware in modo diverso rispetto all'addestramento. L'addestramento è lavoro parallelo limitato dal calcolo, in cui le GPU eccellono. L'inferenza LLM è dominata dalla fase di decode, limitata dalla larghezza di banda della memoria - ed è per questo che hardware progettato specificamente per l'inferenza, come l'architettura RDU su cui funziona la nostra piattaforma, può superare gli acceleratori general-purpose in velocità ed efficienza per questo carico di lavoro.
Misurare l'inferenza
Le prestazioni di inferenza si misurano lungo le metriche che questo glossario copre: Time to First Token (reattività), latenza inter-token e Throughput in Output (velocità di generazione), e Latenza End-to-End (tempo totale di completamento). Conta anche dove il modello viene eseguito - l'inferenza elabora i vostri dati di produzione reali a ogni richiesta, motivo per cui residenza dei dati e giurisdizione sono questioni di inferenza: il modello che serve i vostri utenti gestisce tutto ciò che essi inviano.
Fonti
Termini correlati
Velocità di Inferenza
Il termine ombrello: TTFT, latenza inter-token e throughput - e quale conta in quale situazione.
Prefill vs. Decode
Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.
Token al Secondo
L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.
RDU (Reconfigurable Dataflow Unit)
Il processore AI di SambaNova - chip AI costruiti appositamente, progettati per l'esecuzione dataflow invece dell'elaborazione istruzione per istruzione.
Scopri come l'architettura dataflow di SambaNova cambia l'economia dell'inferenza - e perché abbiamo costruito su di essa.