Categoria

LLM Automation

Pagina 1 di 8

LLM Automation: dall'esperimento all'infrastruttura produttiva

LLM automation è l'uso ingegnerizzato di modelli linguistici in pipeline aziendali reali: generazione di contenuti, classificazione automatica, estrazione di dati, code review assistito. Costruisco e gestisco infrastrutture LLM in produzione, con attenzione a costi, qualità dell'output e governance.

In questa categoria scrivo di LLM automation applicata: architetture di prompt, orchestrazione multi-step, MCP server custom, evaluation, monitoring. Parliamone per un'automazione LLM seria, scopri il mio percorso.

LLM LLM Automation Risk Management Management IT Consulenza IT

Sycophancy degli LLM: rischio nascosto nelle decisioni aziendali e framework Ask-Don't-Tell a confronto

30/06/2026

Sycophancy degli LLM: rischio nascosto nelle decisioni aziendali e framework Ask-Don't-Tell a confronto

Quando chiedi a Claude o GPT di analizzare una strategia, una proposta di pricing o un audit interno, il modello tende sistematicamente a darti ragione. Il fenomeno si chiama sycophancy: deriva strutturalmente da RLHF e reward model umano. Il Bullshit Bench 2026 misura che in dominio medico i modelli fanno pushback su premesse errate solo nel 36% dei casi. Confronto fra principali modelli 2026 e mitigation Ask-Don't-Tell che riduce la sycophancy del 40-60% senza fine-tuning. Continua a leggere

Ultima modifica: Martedì 30 Giugno 2026, alle 08:55

Magecart LLM Automation Threat Intelligence Incident Response E-commerce Security

Cartwright - an LLM-generated "man-in-the-cart" payment-hijack kit

26/06/2026

Cartwright - an LLM-generated "man-in-the-cart" payment-hijack kit

I was called in to investigate a checkout that had quietly stopped converting on a legacy Italian e-commerce. It was not a card skimmer but a "man-in-the-cart" kit: it hides the shop's real payment options and drops in a fake SEPA gateway, with a live-chat operator to talk the buyer through paying the attacker. The unsettling part is who wrote it: the kit's own runtime says an LLM generates a bespoke loader per victim. Full teardown, indicators, and what it means for any shop on an old codebase. Continua a leggere

Ultima modifica: Venerdì 26 Giugno 2026, alle 16:45

LLM LLM Automation Claude API Budget IT Developer workflow

Prompt caching workspace-level di Anthropic: perché i tuoi agenti costano troppo e come diagnosticare le cache mancate

18/06/2026

Prompt caching workspace-level di Anthropic: perché i tuoi agenti costano troppo e come diagnosticare le cache mancate

Dal febbraio 2026 Anthropic offre prompt caching workspace-level con cache hit al 10% del prezzo input. Eppure nella maggioranza delle integrazioni che vedo in consulenza le cache sono mancate nel 60-80% delle chiamate per errori di design banali. Diagnosi sistematica: cache prefix vs suffix, invalidazione accidentale del system prompt, bloccaggio con tool list dinamica, e pattern che ho misurato portare fino a 90% di risparmio sulla bolletta API. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Agent systems Sandboxing gVisor Claude API

Claude Managed Agents vs self-hosted sandbox con seccomp e gVisor: TCO e threat model a confronto

11/06/2026

Claude Managed Agents vs self-hosted sandbox con seccomp e gVisor: TCO e threat model a confronto

Anthropic ha rilasciato in public beta il 1 aprile 2026 Claude Managed Agents - harness fully-managed con container configurabili, SSE streaming, zero DIY su E2B/Modal/Firecracker. Ma ha senso dismettere l'harness self-hosted con gVisor + seccomp + cap-drop che ho descritto nell'articolo sul sandboxing? Diagnosi punto per punto: TCO su scala PMI, superficie di attacco comparativa, vendor lock-in, compliance data sovereignty. Spoiler: la risposta è 'dipende da quattro variabili'. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation Risk Management AI Code Security Management IT

AA Omniscience e il confronto sulle allucinazioni: quale modello sa dire "non lo so" nel 2026

08/06/2026

AA Omniscience e il confronto sulle allucinazioni: quale modello sa dire "non lo so" nel 2026

AA Omniscience di Artificial Analysis (novembre 2025) misura su 6.000 domande in 6 domini un fenomeno che le big AI preferiscono ignorare: quando il modello non sa, inventa o dice non lo so? Solo 3 modelli su 36 ottengono punteggio sopra zero (Claude Opus 4.1, GPT-5.1, Grok 4). Anthropic occupa le prime 3 posizioni per hallucination rate più basso. Tabella comparativa 2026 e implicazioni pratiche per chi sta scegliendo un modello per la pipeline aziendale. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation GraphRAG RAG Microsoft Research Cost Governance

LazyGraphRAG di Microsoft: 700 volte meno costi per query globale su corpus aziendale

05/06/2026

LazyGraphRAG di Microsoft: 700 volte meno costi per query globale su corpus aziendale

GraphRAG classico ha un problema: il costo di indicizzazione è proibitivo (centinaia di dollari per corpus medio). LazyGraphRAG Microsoft rimanda l'estrazione relazionale al query time, riduce 700x il costo per query globale e tiene 0,1% del costo indexing del full GraphRAG, vincendo 96/96 comparazioni a parità di GPT-4o. Tutorial: setup su corpus policy aziendale da 340 documenti, configurazione, benchmark sul mio laboratorio. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Management IT Strategia IT

Anthropic Economic Index: i dati di uso reale di Claude nei mestieri e cosa dicono alle aziende italiane

04/06/2026

Anthropic Economic Index: i dati di uso reale di Claude nei mestieri e cosa dicono alle aziende italiane

Anthropic Economic Index 2026: analisi su 900+ mestieri O*NET incrociata con dati reali Claude. Per ogni lavoro due cerchi: limite teorico e uso reale. Il 49% dei mestieri ha già almeno un quarto dei task svolti con Claude, ma il gap fra teorico e reale non si chiude per affidabilità, barriere legali, trust. Analizzo i dati di marzo 2026 per sette categorie di mestiere presenti nelle PMI italiane (sviluppatori, contabili, legali, HR, commerciali, project manager, tecnici). Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Strategia IT Cloud Infrastructure

Continual learning e World Models: la roadmap AGI di Amodei e Hassabis a confronto

29/05/2026

Continual learning e World Models: la roadmap AGI di Amodei e Hassabis a confronto

Dario Amodei e Demis Hassabis, i due CEO più autorevoli del settore AI, disegnano due roadmap diverse verso l'AGI. Amodei scommette su RLVR cross-domain come futuro scatto di generalizzazione. Hassabis sostiene che serva altro: continual learning, World Models, esperienza fisica simulata. Dietro il disaccordo una scelta di investimento che impatta le roadmap aziendali dei prossimi due anni. Confronto delle due strategie con dati 2025-2026 e implicazioni sul tipo di pipeline da costruire oggi. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API Prompt Caching RAG Cost Governance

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

28/05/2026

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace, con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti retrieval context) e misurato un risparmio del 95% sulla parte prompt ricorrente. Ti racconto passo passo la migrazione, gli errori che ho fatto con la cache invalidation, e come stackare caching + batch per arrivare al minimo teorico. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Strategia IT Management IT

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare

27/05/2026

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare

Il grafico METR che mostra Opus 4.6 capace di risolvere compiti di 12 ore di lavoro umano nel 50% dei casi è virale come prova di AGI imminente. Letto per intero, il paper limita il test a software, ML e cybersec, con CI da 5 a 65 ore. Il fenomeno si chiama benchmark maxing: i benchmark misurabili sono tutti su task verificabili, mentre legali, commerciali e medici restano fermi. Analizzo METR, RLVR e AA Omniscience per distinguere progresso da hype. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Calendario

Archivi