Categoria

Pagina 1 di 2

AI Automation: automatizzare quello che ha senso, non tutto

AI automation è la moda di questi anni, ma non tutti i processi aziendali hanno senso da automatizzare con AI. Il consulente serio guarda al ROI reale: quanto costa il processo manuale oggi, quanto costa l'automazione AI (setup, API, manutenzione, monitoring), qual è il delta di valore.

In questa categoria scrivo di AI automation applicata con criterio: selezione dei casi d'uso, architetture di prompt, monitoring, governance, gestione degli errori. Parliamone, scopri il mio approccio.

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare Il grafico METR che mostra Opus 4.6 capace di risolvere compiti di 12 ore di lavoro umano nel 50% dei casi è virale come prova di AGI imminente. Letto per intero, il paper limita il test a software, ML e cybersec, con CI da 5 a 65 ore. Il fenomeno si chiama benchmark maxing: i benchmark misurabili sono tutti su task verificabili, mentre legali, commerciali e medici restano fermi. Analizzo METR, RLVR e AA Omniscience per distinguere progresso da hype. Continua a leggere
Ultima modifica:

Lo strawberry problem e l'aritmetica degli LLM: diagnosi di quando NON usare un modello linguistico

Lo strawberry problem e l'aritmetica degli LLM: diagnosi di quando NON usare un modello linguistico Chiedi a GPT-5.4 quante R ci sono in strawberry e può ancora sbagliare. Chiedigli di moltiplicare due numeri di venti cifre e collassa. Non è qualità, è conseguenza strutturale di tokenizzazione, natura probabilistica del prossimo token e mancanza di un vero sistema due. Diagnosi operativa di cinque famiglie di compiti che non vanno mai chiesti a un LLM direttamente, con il criterio pratico per riconoscerle prima di progettare una pipeline che costerà sei mesi e fallirà. Continua a leggere
Ultima modifica:

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni DSPy (Khattab Stanford, ICLR 2024, arxiv 2310.03714) tratta i prompt come codice: dichiari la signature, fornisci 40-200 esempi di training, un compile bootstrappa il prompt ottimale contro una metrica. Batte il prompt engineering manuale esperto per 5-46% su GPT-3.5 e 16-40% su Llama. Confronto con CO-STAR, tabella decisionale, costi, pattern di integrazione in produzione enterprise. Continua a leggere
Ultima modifica:

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026 CO-STAR (GovTech Singapore, novembre 2023): Context, Objective, Style, Tone, Audience, Response. Checklist rigorosa per prompt enterprise che non assomigliano a blog post casual. Dodici punti di verifica, anti-pattern empirici (esempi negativi nel prompt, risposte suggerite nella domanda, CoT prompting sui modelli thinking), template riutilizzabile e strategia di versioning del prompt come codice con held-out di validazione. Continua a leggere
Ultima modifica:

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base The Illusion of Thinking di Apple (arxiv 2506.06941, Shojaee et al. giugno 2025) ha documentato tre regimi di performance dei LRM: bassa complessità dove il modello base è equivalente e più efficiente, media dove il reasoning guadagna, alta dove entrambi collassano a zero accuracy. Tabella comparativa con Torre di Hanoi, River Crossing, critica di Lawsen, Limit of RLVR (Yue 2025), implicazioni di progetto: cosa demandare davvero a un LRM e cosa deve restare in algoritmo formale. Continua a leggere
Ultima modifica:

Chain-of-thought: quando attivarlo e quando disattivarlo: checklist in sette criteri

Chain-of-thought: quando attivarlo e quando disattivarlo: checklist in sette criteri Chain-of-thought nel 2022 ha sbloccato il ragionamento negli LLM; nel 2026 è tra i principali contributori a latenza, costi e overthinking. Il paper Anthropic Reasoning Models Don't Always Say What They Think (2505.05410) ha mostrato CoT faithful solo nel 25% dei casi su Claude 3.7 Sonnet. Checklist in sette criteri per decidere quando attivare, disattivare o vincolare il thinking su Claude, GPT-5.4 e Gemini 3.1, con ROI misurabile. Continua a leggere
Ultima modifica:

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena I benchmark pubblici sono la prima fonte che tutti consultano, la più manipolabile. MMLU 5-shot non è confrontabile con Gemini CoT-uncertainty-routing. Il data leaking invalida percentuali straordinarie. LMArena (rebrand Arena 28 gennaio 2026) usa Bradley-Terry su preferenze utente ma pesca da domande non controllate. Checklist in otto criteri per valutare un LLM prima del commitment enterprise, con held-out interni su dominio italiano. Continua a leggere
Ultima modifica:

pgvector in produzione: indici HNSW, IVFFlat e tuning per applicazioni AI con dataset medi

pgvector in produzione: indici HNSW, IVFFlat e tuning per applicazioni AI con dataset medi pgvector trasforma PostgreSQL in un vector database capace. Ma la scelta dell'indice e il tuning dei parametri fanno la differenza tra latenza di 50ms e 5 secondi. Ti mostro il confronto pratico sul dataset di benchmark che uso nel mio laboratorio: quando usare HNSW, quando IVFFlat, come dimensionare m/ef_construction, trade-off memoria vs speed, integrazione con Laravel per pipeline di embedding e ricerca semantica. Continua a leggere
Ultima modifica:

Monitoring LLM in produzione: tracciare qualità, costi e anomalie nelle pipeline AI

Monitoring LLM in produzione: tracciare qualità, costi e anomalie nelle pipeline AI Mettere un LLM in produzione senza monitoring è come deployare un'applicazione PHP senza log. Ho costruito un layer di observability per tre sistemi AI di clienti: cost tracking per richiesta, latenza p95, valutazione automatica della qualità delle risposte e alert su comportamenti anomali. Vi mostro gli strumenti open source che uso. Continua a leggere
Ultima modifica:

Wiki tecnica sempre aggiornata con LLM: parser AST, freshness loop e linter sulla documentazione generata

Wiki tecnica sempre aggiornata con LLM: parser AST, freshness loop e linter sulla documentazione generata La documentazione tecnica invecchia nel secondo in cui viene scritta. Automatizzarla con LLM funziona ma solo se il processo è rigoroso: estrazione strutturata da annotation PHPDoc e Symfony, generazione markdown con template vincolanti, pubblicazione automatica su wiki con review obbligatoria. Ti mostro la pipeline che ho costruito nel mio laboratorio su una codebase Symfony di riferimento da 200.000 righe, con controllo di qualità via linter. Continua a leggere
Ultima modifica: