Categoria

Pagina 4 di 7

LLM Automation: dall'esperimento all'infrastruttura produttiva

LLM automation è l'uso ingegnerizzato di modelli linguistici in pipeline aziendali reali: generazione di contenuti, classificazione automatica, estrazione di dati, code review assistito. Costruisco e gestisco infrastrutture LLM in produzione, con attenzione a costi, qualità dell'output e governance.

In questa categoria scrivo di LLM automation applicata: architetture di prompt, orchestrazione multi-step, MCP server custom, evaluation, monitoring. Parliamone per un'automazione LLM seria, scopri il mio percorso.

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena I benchmark pubblici sono la prima fonte che tutti consultano, la più manipolabile. MMLU 5-shot non è confrontabile con Gemini CoT-uncertainty-routing. Il data leaking invalida percentuali straordinarie. LMArena (rebrand Arena 28 gennaio 2026) usa Bradley-Terry su preferenze utente ma pesca da domande non controllate. Checklist in otto criteri per valutare un LLM prima del commitment enterprise, con held-out interni su dominio italiano. Continua a leggere
Ultima modifica:

In-context learning e few-shot prompting: il superpotere degli LLM spiegato per integrazioni di produzione

In-context learning e few-shot prompting: il superpotere degli LLM spiegato per integrazioni di produzione Il paper GPT-3 del 2020 si chiama Language Models are Few-Shot Learners non a caso. L'in-context learning, la capacità di un LLM di apprendere un compito dai soli esempi nel prompt senza aggiornare i pesi, è la rivoluzione che ha reso possibile tutto il resto. Nella mia pipeline lo uso per costringere Claude a produrre output strutturati senza fine-tuning, trasferire stile su testi tecnici italiani, incidentare comportamenti. Tutorial pratico con sei pattern reali e trappole comuni. Continua a leggere
Ultima modifica:

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche

Fine-tuning vs RAG: quale approccio scegliere per applicazioni aziendali specifiche Fine-tuning o RAG? La risposta dipende da 4 variabili: natura dei dati, frequenza di aggiornamento, budget, criticità della precisione. Ti mostro il framework decisionale che uso: RAG per knowledge base aggiornata frequentemente e controllo della fonte, fine-tuning per task specializzati ripetitivi e latenza critica. Con esempi dalla mia sandbox di prova dove ciascuna tecnica ha vinto. Continua a leggere
Ultima modifica:

Distillation e Deep Seek: la tecnica con cui un modello piccolo eredita le capacità di uno grande

Distillation e Deep Seek: la tecnica con cui un modello piccolo eredita le capacità di uno grande La distillation insegna a un modello piccolo (student) a imitare le risposte di uno grande (teacher) su un compito specifico. OpenAI ha accusato Deep Seek di averla usata contro i termini GPT-4; Anthropic ha inserito in Claude Code un sistema anti-distillation con tool call fittizi. Resta lo strumento principe per portare capacità da 1,8T parametri a 8B runnabili su laptop. Analizzo tecnica, errori operativi e quando ha senso in una pipeline PMI italiana. Continua a leggere
Ultima modifica:

Vocabolario AI 2026: i concetti tecnici che un decisore IT deve distinguere davvero

Vocabolario AI 2026: i concetti tecnici che un decisore IT deve distinguere davvero Quando un vendor ti propone un progetto AI per la tua azienda, sa distinguere pretraining da fine-tuning? Sa perché Mixture of Experts cambia i costi di inferenza di un ordine di grandezza? Sa che un benchmark MMLU 5-shot non è comparabile con un 25-shot? Ho passato in rassegna i 28 concetti tecnici che nei contratti enterprise del 2026 vedono più confusione, con distinzioni rigorose per non farsi vendere fumo e per costruire domande operative ai fornitori. Continua a leggere
Ultima modifica:

Agente AI per analisi tecnica di codebase PHP legacy: architettura con Claude API e tool use

Agente AI per analisi tecnica di codebase PHP legacy: architettura con Claude API e tool use Il primo giorno su un progetto legacy è sempre disorientante: migliaia di file, zero documentazione, tempo limitato. Ho costruito un agente AI con Claude API e tool use per automatizzare l'assessment iniziale: chunking intelligente, navigazione filesystem, generazione di report strutturato con priorità. Ti mostro l'architettura, i prompt che uso, la gestione del contesto lungo e il controllo dei costi. Continua a leggere
Ultima modifica:

Knowledge management AI-assisted per codebase legacy: memoria persistente su progetti di 10+ anni

Knowledge management AI-assisted per codebase legacy: memoria persistente su progetti di 10+ anni Un progetto legacy di 10+ anni ha migliaia di decisioni storiche invisibili: perché questa funzione si chiama così, perché quel campo accetta NULL, perché quel cron gira alle 3:27. Nella mia pipeline personale ho costruito un knowledge management AI-assisted che indicizza commit, issue, documentazione sparsa in embeddings e risponde a domande contestuali. Ti mostro l'architettura: ingestione multi-sorgente, memoria persistente cross-session, retrieval pesato per recency. Continua a leggere
Ultima modifica:

AI per analisi log di sicurezza: pipeline di alerting intelligente che riduce i falsi positivi

AI per analisi log di sicurezza: pipeline di alerting intelligente che riduce i falsi positivi Un SIEM tradizionale genera migliaia di alert al giorno, il 95% falsi positivi. Gli operatori li ignorano, e i veri incidenti passano. Un LLM come secondo livello di classificazione può ridurre drasticamente il rumore. Ti mostro la pipeline che ho progettato: estrazione log strutturati, arricchimento contestuale, classificazione LLM con prompt specializzato, alerting selettivo su Telegram. Con metriche di accuracy reali. Continua a leggere
Ultima modifica:

SDK TypeScript per consumer di API AI: streaming SSE, error recovery, cost tracking lato client

SDK TypeScript per consumer di API AI: streaming SSE, error recovery, cost tracking lato client Un'applicazione AI consumer-facing richiede un SDK TypeScript robusto lato client: streaming SSE che gestisce reconnect su disconnessione rete, error recovery discriminando errori transitori da permanenti, cost tracking per mostrare il consumo utente, tipizzazione forte sugli output strutturati del backend. Ti mostro l'architettura dell'SDK che ho costruito come libreria interna: API pulita, zero dipendenze browser, supporto React/Vue/vanilla, pattern di ripresa sessione dopo navigazione. Continua a leggere
Ultima modifica:

Go come inference gateway per LLM: perché Golang vince su PHP e Node quando la latenza conta davvero

Go come inference gateway per LLM: perché Golang vince su PHP e Node quando la latenza conta davvero PHP e Node sono ottimi per la logica di dominio, ma come inference gateway per LLM sotto carico soffrono: event loop Node saturabile con chiamate lente, PHP-FPM worker-bound con decine di secondi di attesa per token streaming. Go risolve entrambi: concorrenza nativa con goroutine, latenza sub-10ms sui routing decision, gestione elegante di streaming SSE verso migliaia di client paralleli. Ti mostro l'architettura gateway Go che ho costruito come front-end unificato per modelli LLM eterogenei. Continua a leggere
Ultima modifica: