Qdrant
Pagina 1 di 1
Qdrant: asymmetric quantization che porta 24x di compressione mantenendo il recall
Qdrant 1.15 porta asymmetric quantization in produzione: puoi comprimere i vettori a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena. Sul dataset da 180k embedding della mia pipeline interna, il footprint VRAM si è ridotto di 10x a parità di recall. È un cambiamento che rende self-hosting molto più accessibile.
In questa categoria scrivo di Qdrant applicato: deployment self-hosted su VPS, configurazione di asymmetric quantization e binary storage, benchmark di recall e latenza confrontato con Weaviate e pgvector, integrazione via client Python o REST API da PHP, scaling orizzontale a cluster.
Se devi self-hostare un vector database con vincoli di memoria, parliamone. Oppure scopri il mio approccio.