Categoria

AI Automation

Pagina 1 di 2

AI Automation: automatizzare quello che ha senso, non tutto

AI automation è la moda di questi anni, ma non tutti i processi aziendali hanno senso da automatizzare con AI. Il consulente serio guarda al ROI reale: quanto costa il processo manuale oggi, quanto costa l'automazione AI (setup, API, manutenzione, monitoring), qual è il delta di valore.

In questa categoria scrivo di AI automation applicata con criterio: selezione dei casi d'uso, architetture di prompt, monitoring, governance, gestione degli errori. Parliamone, scopri il mio approccio.

LLM Integration AI Automation Cost Governance

Vale la pena spostare la mia pipeline su un modello di frontiera? Bilancio di prima mano

09/07/2026

Vale la pena spostare la mia pipeline su un modello di frontiera? Bilancio di prima mano

Bilancio esperienziale dopo settimane di pipeline editoriale e di sviluppo su un modello di frontiera: dove il tier superiore ha fatto davvero la differenza (task lunghi, refactoring estesi) e dove il modello standard bastava a metà del costo. Con il caveat onesto reso evidente dall'affaire Fable 5: un modello di frontiera può essere sospeso dall'alto, il che rafforza il punto sulla sostituibilità. Information gain massimo, niente recensione da rumor. Continua a leggere

Ultima modifica: Giovedì 9 Luglio 2026, alle 10:12

AI Automation Recursive Self-Improvement Developer workflow

L'AI scrive gran parte del codice di chi la produce: cosa significa per chi assume sviluppatori

01/07/2026

L'AI scrive gran parte del codice di chi la produce: cosa significa per chi assume sviluppatori

Le aziende di frontiera dichiarano che una quota crescente del loro codice è ormai scritta dall'AI, con il task-horizon che si allunga di mese in mese. Lettura ingegneristica e non allarmistica per un decisore: cosa cambia davvero per chi assume sviluppatori junior, dove resta il valore del senior che fa review e architettura, e il rischio della cascata sistemica quando l'AI genera codice che nessuno comprende a fondo. Niente profezie, solo implicazioni concrete sull'organizzazione di un team. Continua a leggere

Ultima modifica: Mercoledì 1 Luglio 2026, alle 09:47

LLM LLM Automation AI Automation Management IT Strategia IT

Anthropic Economic Index: i dati di uso reale di Claude nei mestieri e cosa dicono alle aziende italiane

04/06/2026

Anthropic Economic Index: i dati di uso reale di Claude nei mestieri e cosa dicono alle aziende italiane

Anthropic Economic Index 2026: analisi su 900+ mestieri O*NET incrociata con dati reali Claude. Per ogni lavoro due cerchi: limite teorico e uso reale. Il 49% dei mestieri ha già almeno un quarto dei task svolti con Claude, ma il gap fra teorico e reale non si chiude per affidabilità, barriere legali, trust. Analizzo i dati di marzo 2026 per sette categorie di mestiere presenti nelle PMI italiane (sviluppatori, contabili, legali, HR, commerciali, project manager, tecnici). Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Strategia IT Cloud Infrastructure

Continual learning e World Models: la roadmap AGI di Amodei e Hassabis a confronto

29/05/2026

Continual learning e World Models: la roadmap AGI di Amodei e Hassabis a confronto

Dario Amodei e Demis Hassabis, i due CEO più autorevoli del settore AI, disegnano due roadmap diverse verso l'AGI. Amodei scommette su RLVR cross-domain come futuro scatto di generalizzazione. Hassabis sostiene che serva altro: continual learning, World Models, esperienza fisica simulata. Dietro il disaccordo una scelta di investimento che impatta le roadmap aziendali dei prossimi due anni. Confronto delle due strategie con dati 2025-2026 e implicazioni sul tipo di pipeline da costruire oggi. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Strategia IT Management IT

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare

27/05/2026

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare

Il grafico METR che mostra Opus 4.6 capace di risolvere compiti di 12 ore di lavoro umano nel 50% dei casi è virale come prova di AGI imminente. Letto per intero, il paper limita il test a software, ML e cybersec, con CI da 5 a 65 ore. Il fenomeno si chiama benchmark maxing: i benchmark misurabili sono tutti su task verificabili, mentre legali, commerciali e medici restano fermi. Analizzo METR, RLVR e AA Omniscience per distinguere progresso da hype. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Risk Management Consulenza IT

Lo strawberry problem e l'aritmetica degli LLM: diagnosi di quando NON usare un modello linguistico

21/05/2026

Lo strawberry problem e l'aritmetica degli LLM: diagnosi di quando NON usare un modello linguistico

Chiedi a GPT-5.4 quante R ci sono in strawberry e può ancora sbagliare. Chiedigli di moltiplicare due numeri di venti cifre e collassa. Non è qualità, è conseguenza strutturale di tokenizzazione, natura probabilistica del prossimo token e mancanza di un vero sistema due. Diagnosi operativa di cinque famiglie di compiti che non vanno mai chiesti a un LLM direttamente, con il criterio pratico per riconoscerle prima di progettare una pipeline che costerà sei mesi e fallirà. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Claude API Python

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

15/05/2026

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

DSPy (Khattab Stanford, ICLR 2024, arxiv 2310.03714) tratta i prompt come codice: dichiari la signature, fornisci 40-200 esempi di training, un compile bootstrappa il prompt ottimale contro una metrica. Batte il prompt engineering manuale esperto per 5-46% su GPT-3.5 e 16-40% su Llama. Confronto con CO-STAR, tabella decisionale, costi, pattern di integrazione in produzione enterprise. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Claude API Developer workflow

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

13/05/2026

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

CO-STAR (GovTech Singapore, novembre 2023): Context, Objective, Style, Tone, Audience, Response. Checklist rigorosa per prompt enterprise che non assomigliano a blog post casual. Dodici punti di verifica, anti-pattern empirici (esempi negativi nel prompt, risposte suggerite nella domanda, CoT prompting sui modelli thinking), template riutilizzabile e strategia di versioning del prompt come codice con held-out di validazione. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Risk Management Consulenza IT

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base

28/04/2026

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base

The Illusion of Thinking di Apple (arxiv 2506.06941, Shojaee et al. giugno 2025) ha documentato tre regimi di performance dei LRM: bassa complessità dove il modello base è equivalente e più efficiente, media dove il reasoning guadagna, alta dove entrambi collassano a zero accuracy. Tabella comparativa con Torre di Hanoi, River Crossing, critica di Lawsen, Limit of RLVR (Yue 2025), implicazioni di progetto: cosa demandare davvero a un LRM e cosa deve restare in algoritmo formale. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Developer workflow Risk Management

Chain-of-thought: quando attivarlo e quando disattivarlo: checklist in sette criteri

24/04/2026

Chain-of-thought: quando attivarlo e quando disattivarlo: checklist in sette criteri

Chain-of-thought nel 2022 ha sbloccato il ragionamento negli LLM; nel 2026 è tra i principali contributori a latenza, costi e overthinking. Il paper Anthropic Reasoning Models Don't Always Say What They Think (2505.05410) ha mostrato CoT faithful solo nel 25% dei casi su Claude 3.7 Sonnet. Checklist in sette criteri per decidere quando attivare, disattivare o vincolare il thinking su Claude, GPT-5.4 e Gemini 3.1, con ROI misurabile. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Calendario

Archivi