Categoria

RAG

Pagina 1 di 2

RAG

RAG (Retrieval-Augmented Generation): architetture AI con dati aziendali. Embedding, vector search, integrazione LLM con knowledge base interna.

Costruisco e gestisco infrastrutture di automazione LLM in produzione: custom MCP server, pipeline di content engineering, audit del codice AI-generato, integrazione di Claude API in processi aziendali reali. L'AI è una leva di produttività seria quando governata da professionisti con esperienza, non un giocattolo.

Per approfondire RAG nel tuo progetto, scrivimi per una consulenza mirata oppure scopri il mio percorso professionale.

Multi-Stack Weaviate RAG ColBERT Vector database

Weaviate 1.30 multi-vector ColBERT in production: setup per RAG tecnico specialistico

23/06/2026

Weaviate 1.30 multi-vector ColBERT in production: setup per RAG tecnico specialistico

Per un RAG su dominio tecnico specialistico (vocabolario italiano, sigle proprietarie, convenzioni di settore), un dense bi-encoder single-vector generalista sbaglia spesso. Weaviate 1.30 porta multi-vector ColBERT in GA e 1.31 aggiunge MUVERA per ridurre il footprint. Setup completo: ingestion pipeline, configurazione schema Weaviate, retrieval con late interaction, benchmark accuracy su dataset tecnico italiano della mia sandbox. Continua a leggere

Ultima modifica: Martedì 23 Giugno 2026, alle 09:15

LLM Automation GraphRAG RAG Microsoft Research Cost Governance

LazyGraphRAG di Microsoft: 700 volte meno costi per query globale su corpus aziendale

05/06/2026

LazyGraphRAG di Microsoft: 700 volte meno costi per query globale su corpus aziendale

GraphRAG classico ha un problema: il costo di indicizzazione è proibitivo (centinaia di dollari per corpus medio). LazyGraphRAG Microsoft rimanda l'estrazione relazionale al query time, riduce 700x il costo per query globale e tiene 0,1% del costo indexing del full GraphRAG, vincendo 96/96 comparazioni a parità di GPT-4o. Tutorial: setup su corpus policy aziendale da 340 documenti, configurazione, benchmark sul mio laboratorio. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API Prompt Caching RAG Cost Governance

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

28/05/2026

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace, con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti retrieval context) e misurato un risparmio del 95% sulla parte prompt ricorrente. Ti racconto passo passo la migrazione, gli errori che ho fatto con la cache invalidation, e come stackare caching + batch per arrivare al minimo teorico. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cloud Infrastructure Vector database Qdrant RAG Quantization

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall

20/05/2026

Qdrant 1.15 asymmetric quantization e binary storage: 10x meno VRAM per stesso recall

Qdrant 1.15 porta asymmetric quantization in produzione: puoi comprimere i vettori a 1,5 bit (24x compressione) mantenendo scalar query alla risoluzione piena. Sul dataset da 180k embedding della mia sandbox, la RAM residente del vector DB è passata da 1,6 GB a 170 MB con recall@10 in calo di soli 0,8 punti. Tutorial completo: setup, configurazione Compose con binding, migrazione da uncompressed, benchmark. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation RAG Vector database Python

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning

11/05/2026

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning

Se il RAG aziendale fatica a trovare i documenti giusti, il problema quasi mai è nell'LLM: è negli embedding. Modelli generalisti come ada-3 o multilingual-e5 ignorano sigle di settore, convenzioni interne, tecnicismi italiani. Tutorial su 180.000 paragrafi: da Word2Vec (Mikolov 2013) ai bi-encoder fine-tuned, valutazione recall@10 e nDCG, integrazione Qdrant e pgvector, costi, pattern di aggiornamento. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

RAG Chatbot Multi-Stack Data Ownership Laravel

Chatbot aziendale con RAG su documentazione interna: guida completa self-hosted per privacy massima

09/04/2026

Chatbot aziendale con RAG su documentazione interna: guida completa self-hosted per privacy massima

Un chatbot RAG sulle procedure interne risponde correttamente al 75-85% delle domande frequenti senza escalation. Ma il self-hosted cambia tutto: nessun dato esce dall'azienda, compliance GDPR diretta, costi prevedibili. Ti mostro l'architettura completa: ingestione documentale, embedding con modelli locali, pgvector, Laravel per orchestrazione, frontend chat React, deployment su VPS Hetzner. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation RAG Fine-tuning Vector database PMI

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche

07/04/2026

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche

Fine-tuning o RAG? La risposta dipende da 4 variabili: natura dei dati, frequenza di aggiornamento, budget, criticità della precisione. Ti mostro il framework decisionale che uso: RAG per knowledge base aggiornata frequentemente e controllo della fonte, fine-tuning per task specializzati ripetitivi e latenza critica. Con esempi dalla mia sandbox di prova dove ciascuna tecnica ha vinto. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Knowledge Management PHP Legacy RAG Developer workflow

Knowledge management AI-assisted per codebase legacy: memoria persistente su progetti di 10+ anni

26/03/2026

Knowledge management AI-assisted per codebase legacy: memoria persistente su progetti di 10+ anni

Un progetto legacy di 10+ anni ha migliaia di decisioni storiche invisibili: perché questa funzione si chiama così, perché quel campo accetta NULL, perché quel cron gira alle 3:27. Nella mia pipeline personale ho costruito un knowledge management AI-assisted che indicizza commit, issue, documentazione sparsa in embeddings e risponde a domande contestuali. Ti mostro l'architettura: ingestione multi-sorgente, memoria persistente cross-session, retrieval pesato per recency. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

pgvector PostgreSQL Vector database RAG AI Automation

pgvector in produzione: indici HNSW, IVFFlat e tuning per applicazioni AI con dataset medi

12/03/2026

pgvector in produzione: indici HNSW, IVFFlat e tuning per applicazioni AI con dataset medi

pgvector trasforma PostgreSQL in un vector database capace. Ma la scelta dell'indice e il tuning dei parametri fanno la differenza tra latenza di 50ms e 5 secondi. Ti mostro il confronto pratico sul dataset di benchmark che uso nel mio laboratorio: quando usare HNSW, quando IVFFlat, come dimensionare m/ef_construction, trade-off memoria vs speed, integrazione con Laravel per pipeline di embedding e ricerca semantica. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

RAG Chatbot LLM Automation PMI Vector database

Costruire un chatbot aziendale con RAG su documentazione interna: guida pratica

04/03/2026

Costruire un chatbot aziendale con RAG su documentazione interna: guida pratica

Il servizio assistenza di un cliente rispondeva alle stesse 50 domande 100 volte al settimana. Ho costruito un chatbot RAG su 200 documenti interni (manuale prodotto, FAQ, procedure): il sistema risponde correttamente al 78% delle domande senza escalation umana. Self-hosted su VPS, zero dati verso API esterne. Continua a leggere

Ultima modifica: Mercoledì 4 Marzo 2026, alle 07:44

Calendario

Archivi