Glossario delle Prestazioni di Inferenza
Definizioni chiare delle metriche e dei concetti alla base delle prestazioni di inferenza LLM - dal TTFT all'architettura dataflow. Ogni voce è supportata da fonti pubblicate e da dati di benchmark reali della nostra infrastruttura EU.
Metriche di Prestazione
TTFT (Time to First Token)
Quanto tempo un utente attende tra l'invio di una richiesta e la visualizzazione del primo token della risposta.
Latenza Inter-Token (ITL)
L'intervallo medio di tempo tra token consecutivi durante la generazione - chiamato anche TPOT.
Token al Secondo
L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.
Velocità di Inferenza
Il termine ombrello: TTFT, latenza inter-token e throughput - e quale conta in quale situazione.
Concetti di Serving
Inferenza
Eseguire un modello AI addestrato per produrre output - il carico di lavoro di produzione dell'AI, quello i cui costi e velocità si accumulano con l'utilizzo.
Throughput (Serving LLM)
Token al secondo in due sensi: Throughput in Output per richiesta vs. capacità a livello di sistema - e come il batching scambia l'uno con l'altra.
Prefill vs. Decode
Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.
Latenza vs. Throughput
Il trade-off fondamentale del serving: output totale del sistema vs. velocità di ciascun utente.
Architettura
RDU (Reconfigurable Dataflow Unit)
Il processore AI di SambaNova - chip AI costruiti appositamente, progettati per l'esecuzione dataflow invece dell'elaborazione istruzione per istruzione.
Architettura Dataflow
Il modello di esecuzione in cui i dati fluiscono attraverso le operazioni come una pipeline - eliminando i round-trip kernel per kernel dell'esecuzione su GPU.