Categoria

Pagina 1 di 1

Quantization: comprimere embedding a 1,5 bit senza perdere il recall

La quantization di embedding è la tecnica che permette di ridurre drasticamente il footprint di memoria di un vector store senza compromettere significativamente la qualità del retrieval. Qdrant 1.15 con asymmetric quantization scende a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena per ranking.

In questa categoria scrivo di quantization applicata: confronto tra binary, scalar e product quantization su dataset reali, asymmetric quantization come compromesso ideale per la maggior parte dei workload, misurazione del trade-off recall@k vs memoria, scelta della quantization in base al modello di embedding.

Se hai un vector database che sta saturando la memoria, parliamone. Oppure scopri come lavoro.

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall Qdrant 1.15 porta asymmetric quantization in produzione: puoi comprimere i vettori a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena. Sul dataset da 180k embedding della mia sandbox, la RAM residente del vector DB è passata da 1,6 GB a 170 MB con recall@10 in calo di soli 0,8 punti. Tutorial completo: setup, configurazione Compose con binding, migrazione da uncompressed, benchmark. Continua a leggere
Ultima modifica: