Categoria

Vector database

Pagina 1 di 1

Vector database: dove vivono gli embedding di RAG e ricerca semantica

Un vector database serve quando ti serve trovare informazioni per similarità semantica anziché per match esatto: documenti correlati, FAQ corrispondenti a una domanda libera, prodotti simili. Pochi pixel di differenza tra una scelta giusta e una sbagliata: indici HNSW, quantization, footprint di memoria, recall a parità di latenza.

In questa categoria scrivo di vector store applicati a RAG aziendale: Weaviate 1.30 multi-vector ColBERT per dominio specialistico italiano, Qdrant 1.15 con asymmetric quantization e binary storage (10x meno VRAM a parità di recall), embedding dominio-specifici via Word2Vec e fine-tuning, pgvector per integrazioni PostgreSQL.

Se stai costruendo un RAG aziendale e i risultati non sono quelli sperati, il problema è quasi sempre nello storage e negli embedding. Parliamone, oppure scopri come lavoro su questi sistemi.

Multi-Stack Weaviate RAG ColBERT Vector database

Weaviate 1.30 multi-vector ColBERT in production: setup per RAG tecnico specialistico

23/06/2026

Weaviate 1.30 multi-vector ColBERT in production: setup per RAG tecnico specialistico

Per un RAG su dominio tecnico specialistico (vocabolario italiano, sigle proprietarie, convenzioni di settore), un dense bi-encoder single-vector generalista sbaglia spesso. Weaviate 1.30 porta multi-vector ColBERT in GA e 1.31 aggiunge MUVERA per ridurre il footprint. Setup completo: ingestion pipeline, configurazione schema Weaviate, retrieval con late interaction, benchmark accuracy su dataset tecnico italiano della mia sandbox. Continua a leggere

Ultima modifica: Martedì 23 Giugno 2026, alle 09:15

Cloud Infrastructure Vector database Qdrant RAG Quantization

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall

20/05/2026

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall

Qdrant 1.15 porta asymmetric quantization in produzione: puoi comprimere i vettori a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena. Sul dataset da 180k embedding della mia sandbox, la RAM residente del vector DB è passata da 1,6 GB a 170 MB con recall@10 in calo di soli 0,8 punti. Tutorial completo: setup, configurazione Compose con binding, migrazione da uncompressed, benchmark. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation RAG Vector database Python

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning

11/05/2026

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning

Se il RAG aziendale fatica a trovare i documenti giusti, il problema quasi mai è nell'LLM: è negli embedding. Modelli generalisti come ada-3 o multilingual-e5 ignorano sigle di settore, convenzioni interne, tecnicismi italiani. Tutorial su 180.000 paragrafi: da Word2Vec (Mikolov 2013) ai bi-encoder fine-tuned, valutazione recall@10 e nDCG, integrazione Qdrant e pgvector, costi, pattern di aggiornamento. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cloud Infrastructure LLM Automation Caching Vector database Budget IT

Semantic caching per applicazioni LLM: ridurre i costi del 60% senza compromettere la freschezza delle risposte

21/04/2026

Semantic caching per applicazioni LLM: ridurre i costi del 60% senza compromettere la freschezza delle risposte

Il caching tradizionale per chiamate LLM non funziona: due richieste semanticamente identiche ma testualmente diverse miss-ano entrambe. La soluzione è il semantic caching su embeddings: la richiesta entrante viene vettorizzata, confrontata con quelle già servite, e se la similarity supera una soglia si riusa la risposta. Ti mostro l'architettura pgvector, la calibrazione della soglia, il TTL dinamico, e i numeri della mia pipeline dove ho ridotto i costi Claude API del 60%. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation RAG Fine-tuning Vector database PMI

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche

07/04/2026

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche

Fine-tuning o RAG? La risposta dipende da 4 variabili: natura dei dati, frequenza di aggiornamento, budget, criticità della precisione. Ti mostro il framework decisionale che uso: RAG per knowledge base aggiornata frequentemente e controllo della fonte, fine-tuning per task specializzati ripetitivi e latenza critica. Con esempi dalla mia sandbox di prova dove ciascuna tecnica ha vinto. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

pgvector PostgreSQL Vector database RAG AI Automation

pgvector in produzione: indici HNSW, IVFFlat e tuning per applicazioni AI con dataset medi

12/03/2026

pgvector in produzione: indici HNSW, IVFFlat e tuning per applicazioni AI con dataset medi

pgvector trasforma PostgreSQL in un vector database capace. Ma la scelta dell'indice e il tuning dei parametri fanno la differenza tra latenza di 50ms e 5 secondi. Ti mostro il confronto pratico sul dataset di benchmark che uso nel mio laboratorio: quando usare HNSW, quando IVFFlat, come dimensionare m/ef_construction, trade-off memoria vs speed, integrazione con Laravel per pipeline di embedding e ricerca semantica. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

RAG Chatbot LLM Automation PMI Vector database

Costruire un chatbot aziendale con RAG su documentazione interna: guida pratica

04/03/2026

Costruire un chatbot aziendale con RAG su documentazione interna: guida pratica

Il servizio assistenza di un cliente rispondeva alle stesse 50 domande 100 volte al settimana. Ho costruito un chatbot RAG su 200 documenti interni (manuale prodotto, FAQ, procedure): il sistema risponde correttamente al 78% delle domande senza escalation umana. Self-hosted su VPS, zero dati verso API esterne. Continua a leggere

Ultima modifica: Mercoledì 4 Marzo 2026, alle 07:44

RAG LLM AI Automation Vector database PMI

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche

03/11/2025

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche

Un cliente nel settore legale voleva un'AI che rispondesse su normativa italiana specifica. Fine-tuning troppo costoso da mantenere aggiornato, RAG con Postgres pgvector più economico e aggiornabile in tempo reale. Vi racconto la valutazione tecnica e i benchmark di accuratezza sui casi d'uso reali. Continua a leggere

Ultima modifica: Lunedì 3 Novembre 2025, alle 08:43

Calendario

Archivi