Categoria

Quantization

Pagina 1 di 1

Quantization: comprimere embedding a 1,5 bit senza perdere il recall

La quantization di embedding è la tecnica che permette di ridurre drasticamente il footprint di memoria di un vector store senza compromettere significativamente la qualità del retrieval. Qdrant 1.15 con asymmetric quantization scende a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena per ranking.

In questa categoria scrivo di quantization applicata: confronto tra binary, scalar e product quantization su dataset reali, asymmetric quantization come compromesso ideale per la maggior parte dei workload, misurazione del trade-off recall@k vs memoria, scelta della quantization in base al modello di embedding.

Se hai un vector database che sta saturando la memoria, parliamone. Oppure scopri come lavoro.

Benchmarking Qwen3.6-35B-A3B on a 16GB RTX 5060 Ti: A Full Engineering Teardown

16/06/2026

The engineering companion to the strategic piece on local inference, deliberately exhaustive. llama.cpp build flags for Blackwell, VRAM accounting to the MiB, context ceilings per quantization, prefill and decode throughput with and without MTP, a roofline analysis of why speculative decoding helps this MoE, a 200-call agentic tool-calling harness, and an autopsy of a KV-cache compression technique that crashed with its CUDA stack trace. Every figure measured on one fixed rig. Continua a leggere

Ultima modifica: Domenica 12 Luglio 2026, alle 17:47

Cloud Infrastructure Vector database Qdrant RAG Quantization

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall

20/05/2026

Qdrant 1.15 porta asymmetric quantization in produzione: puoi comprimere i vettori a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena. Sul dataset da 180k embedding della mia sandbox, la RAM residente del vector DB è passata da 1,6 GB a 170 MB con recall@10 in calo di soli 0,8 punti. Tutorial completo: setup, configurazione Compose con binding, migrazione da uncompressed, benchmark. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51