Categoria

Pagina 1 di 1

Qdrant: asymmetric quantization che porta 24x di compressione mantenendo il recall

Qdrant 1.15 porta asymmetric quantization in produzione: puoi comprimere i vettori a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena. Sul dataset da 180k embedding della mia pipeline interna, il footprint VRAM si è ridotto di 10x a parità di recall. È un cambiamento che rende self-hosting molto più accessibile.

In questa categoria scrivo di Qdrant applicato: deployment self-hosted su VPS, configurazione di asymmetric quantization e binary storage, benchmark di recall e latenza confrontato con Weaviate e pgvector, integrazione via client Python o REST API da PHP, scaling orizzontale a cluster.

Se devi self-hostare un vector database con vincoli di memoria, parliamone. Oppure scopri il mio approccio.

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall Qdrant 1.15 porta asymmetric quantization in produzione: puoi comprimere i vettori a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena. Sul dataset da 180k embedding della mia sandbox, la RAM residente del vector DB è passata da 1,6 GB a 170 MB con recall@10 in calo di soli 0,8 punti. Tutorial completo: setup, configurazione Compose con binding, migrazione da uncompressed, benchmark. Continua a leggere
Ultima modifica: