Glossario
Concetti di Serving

Latenza vs. Throughput

Latenza e throughput tirano in direzioni opposte nel serving LLM: raggruppare in batch più richieste concorrenti aumenta il throughput totale del sistema ma rallenta ogni singola richiesta. I provider scelgono dove posizionarsi su questa curva - e quella scelta, più del modello stesso, determina spesso la velocità che gli utenti sperimentano.

Da dove nasce il trade-off

La generazione di token è limitata dalla larghezza di banda della memoria: ogni step di decode deve trasferire in streaming i pesi del modello dalla memoria. Il batching consente all'hardware di caricare i pesi una volta e far avanzare molte richieste insieme, così i token al secondo totali crescono rapidamente con il batch size. Ma tutte le richieste nel batch condividono la stessa larghezza di banda, quindi i token di ciascun utente arrivano più lentamente. Databricks lo ha misurato concretamente su una A100: batch size 64 ha fornito 14x il throughput a 4x la latenza per richiesta.

Il trade-off ha un limite netto: una volta che i batch crescono abbastanza da rendere il decode compute-bound, il throughput smette di migliorare mentre la latenza continua a peggiorare - nelle parole di Databricks, ogni raddoppio del batch size oltre quel punto aumenta solo la latenza. Sistemi di ricerca come Sarathi-Serve (OSDI 2024) esistono specificamente per gestire questa curva, perché uno scheduling ingenuo permette al prefill di un utente di bloccare la generazione di tutti gli altri.

Cosa significa quando si sceglie un provider

Due provider che eseguono modelli identici su GPU identiche possono offrire esperienze completamente diverse a seconda dell'aggressività del loro batching. Un'alta utilizzazione è positiva per l'economia del provider; una bassa latenza è positiva per i vostri utenti. Uno scheduling migliore (continuous batching, chunked prefill) sposta la frontiera verso l'esterno - e un hardware diverso ne cambia completamente la forma: le architetture che rimangono efficienti a batch size bassi possono offrire un'alta velocità per richiesta senza sacrificare altrettanta capacità, che è la premessa dell'architettura dataflow alla base della nostra piattaforma.

Consiglio pratico: fate benchmark dei provider con il vostro carico di lavoro e la vostra concorrenza reali, non solo con richieste singole a mezzanotte. Osservate la stabilità della latenza inter-token nell'arco della giornata - rivela quanto la capacità sia effettivamente sovrasottoscritta.

Fonti

Termini correlati

Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.

Pronto a Costruire il Futuro dell'AI in Europa?

Unisciti alle organizzazioni lungimiranti che implementano AI sovrana con prestazioni di livello mondiale