Da dove nasce il trade-off
La generazione di token è limitata dalla larghezza di banda della memoria: ogni step di decode deve trasferire in streaming i pesi del modello dalla memoria. Il batching consente all'hardware di caricare i pesi una volta e far avanzare molte richieste insieme, così i token al secondo totali crescono rapidamente con il batch size. Ma tutte le richieste nel batch condividono la stessa larghezza di banda, quindi i token di ciascun utente arrivano più lentamente. Databricks lo ha misurato concretamente su una A100: batch size 64 ha fornito 14x il throughput a 4x la latenza per richiesta.
Il trade-off ha un limite netto: una volta che i batch crescono abbastanza da rendere il decode compute-bound, il throughput smette di migliorare mentre la latenza continua a peggiorare - nelle parole di Databricks, ogni raddoppio del batch size oltre quel punto aumenta solo la latenza. Sistemi di ricerca come Sarathi-Serve (OSDI 2024) esistono specificamente per gestire questa curva, perché uno scheduling ingenuo permette al prefill di un utente di bloccare la generazione di tutti gli altri.
Cosa significa quando si sceglie un provider
Due provider che eseguono modelli identici su GPU identiche possono offrire esperienze completamente diverse a seconda dell'aggressività del loro batching. Un'alta utilizzazione è positiva per l'economia del provider; una bassa latenza è positiva per i vostri utenti. Uno scheduling migliore (continuous batching, chunked prefill) sposta la frontiera verso l'esterno - e un hardware diverso ne cambia completamente la forma: le architetture che rimangono efficienti a batch size bassi possono offrire un'alta velocità per richiesta senza sacrificare altrettanta capacità, che è la premessa dell'architettura dataflow alla base della nostra piattaforma.
Consiglio pratico: fate benchmark dei provider con il vostro carico di lavoro e la vostra concorrenza reali, non solo con richieste singole a mezzanotte. Osservate la stabilità della latenza inter-token nell'arco della giornata - rivela quanto la capacità sia effettivamente sovrasottoscritta.
Fonti
Termini correlati
Throughput (Serving LLM)
Token al secondo in due sensi: Throughput in Output per richiesta vs. capacità a livello di sistema - e come il batching scambia l'uno con l'altra.
Latenza Inter-Token (ITL)
L'intervallo medio di tempo tra token consecutivi durante la generazione - chiamato anche TPOT.
Architettura Dataflow
Il modello di esecuzione in cui i dati fluiscono attraverso le operazioni come una pipeline - eliminando i round-trip kernel per kernel dell'esecuzione su GPU.
Guarda queste metriche misurate dal vivo sulla nostra infrastruttura EU - numeri reali da hardware di produzione, verificati in modo indipendente.