Risorse per sviluppatori

Glossario dell'inferenza AI sovrana in EU

Definizioni chiare e documentate sull'inferenza AI sovrana in EU - da Data Residency, GDPR e Zero Data Retention a TTFT, throughput e architettura dataflow. Ogni voce è supportata da fonti pubblicate e da dati di benchmark reali della nostra infrastruttura EU.

Sovranità & Compliance

Data Residency

Dove i tuoi dati sono fisicamente archiviati ed elaborati - una parte necessaria della sovranità, ma non la stessa cosa del controllo su chi può raggiungerli legalmente.

Data Processing Agreement (DPA)

Il contratto previsto dall'Articolo 28 del GDPR che regola come un provider di inferenza può trattare i dati personali contenuti nei tuoi prompt - e un test di base per capire se un provider è pronto per l'enterprise.

GDPR per l'inferenza AI

Cosa richiede la legge europea sulla protezione dei dati quando i tuoi prompt contengono dati personali - una base giuridica, un accordo con il responsabile del trattamento e un trattamento che resta alla portata del diritto EU.

Zero Data Retention (ZDR)

Quando un provider di inferenza non archivia i tuoi prompt o output dopo aver servito una richiesta, e non li usa mai per l'addestramento - riducendo la tua esposizione dei dati al solo momento dell'elaborazione.

Metriche di Prestazione

TTFT (Time to First Token)

Quanto tempo un utente attende tra l'invio di una richiesta e la visualizzazione del primo token della risposta.

Latenza Inter-Token (ITL)

L'intervallo medio di tempo tra token consecutivi durante la generazione - chiamato anche TPOT.

Token al Secondo

L'unità standard per la velocità di generazione degli LLM - e perché lo stesso numero può significare due cose diverse.

Velocità di Inferenza

Il termine ombrello: TTFT, latenza inter-token e throughput - e quale conta in quale situazione.

Architettura

RDU (Reconfigurable Dataflow Unit)

Il processore AI di SambaNova - chip AI costruiti appositamente, progettati per l'esecuzione dataflow invece dell'elaborazione istruzione per istruzione.

Architettura Dataflow

Il modello di esecuzione in cui i dati fluiscono attraverso le operazioni come una pipeline - eliminando i round-trip kernel per kernel dell'esecuzione su GPU.

Modelli & Inferenza

Inferenza

Eseguire un modello AI addestrato per produrre output - il carico di lavoro di produzione dell'AI, quello i cui costi e velocità si accumulano con l'utilizzo.

Throughput (Serving LLM)

Token al secondo in due sensi: Throughput in Output per richiesta vs. capacità a livello di sistema - e come il batching scambia l'uno con l'altra.

Prefill vs. Decode

Le due fasi dell'inferenza LLM - elaborazione parallela del prompt vs. generazione token per token.

Latenza vs. Throughput

Il trade-off fondamentale del serving: output totale del sistema vs. velocità di ciascun utente.

Modello Open-Weight

Un modello i cui parametri addestrati sono pubblicati così che chiunque possa eseguirlo da sé - la base tecnica dell'inferenza sovrana.

Context Window

La quantità massima di testo, in token, che un modello può considerare in una volta - prompt più output. La sua lunghezza plasma direttamente velocità e costo dell'inferenza.

Parametri

I pesi appresi di un modello - la misura approssimativa della sua dimensione e capacità, e il driver diretto di memoria, velocità e costo.

Glossario dell'inferenza AI sovrana in EU

Sovranità & Compliance

Metriche di Prestazione

Architettura

Modelli & Inferenza

Pronto a Costruire il Futuro dell'AI in Europa?