Categoria

Pagina 2 di 7

LLM Automation: dall'esperimento all'infrastruttura produttiva

LLM automation è l'uso ingegnerizzato di modelli linguistici in pipeline aziendali reali: generazione di contenuti, classificazione automatica, estrazione di dati, code review assistito. Costruisco e gestisco infrastrutture LLM in produzione, con attenzione a costi, qualità dell'output e governance.

In questa categoria scrivo di LLM automation applicata: architetture di prompt, orchestrazione multi-step, MCP server custom, evaluation, monitoring. Parliamone per un'automazione LLM seria, scopri il mio percorso.

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026 CO-STAR (GovTech Singapore, novembre 2023): Context, Objective, Style, Tone, Audience, Response. Checklist rigorosa per prompt enterprise che non assomigliano a blog post casual. Dodici punti di verifica, anti-pattern empirici (esempi negativi nel prompt, risposte suggerite nella domanda, CoT prompting sui modelli thinking), template riutilizzabile e strategia di versioning del prompt come codice con held-out di validazione. Continua a leggere
Ultima modifica:

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning Se il RAG aziendale fatica a trovare i documenti giusti, il problema quasi mai è nell'LLM: è negli embedding. Modelli generalisti come ada-3 o multilingual-e5 ignorano sigle di settore, convenzioni interne, tecnicismi italiani. Tutorial su 180.000 paragrafi: da Word2Vec (Mikolov 2013) ai bi-encoder fine-tuned, valutazione recall@10 e nDCG, integrazione Qdrant e pgvector, costi, pattern di aggiornamento. Continua a leggere
Ultima modifica:

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato Claude Opus 4.7 ha prezzo headline invariato rispetto a 4.6 - $5/$25 per milione di token. Ma dopo tre settimane di esercizio nella mia pipeline ho notato che la bolletta API era salita del 31% a parità di volume di chiamate. La causa: il nuovo tokenizer usa in media +35% token per lo stesso testo, e le cache pre-4.7 sono state invalidate. Ti mostro la diagnostica, i numeri misurati e come ricalcolare il budget. Continua a leggere
Ultima modifica:

Perché le allucinazioni LLM non si risolvono col prompting: rappresentazione distribuzionale e limiti architetturali

Perché le allucinazioni LLM non si risolvono col prompting: rappresentazione distribuzionale e limiti architetturali Nel 2023 Sam Altman prometteva di risolvere le allucinazioni in due anni; nel 2025 OpenAI stessa pubblica "Why Language Models Hallucinate" (arxiv 2509.04664) mostrando che sono strutturalmente inevitabili. AA-Omniscience 2025 di Artificial Analysis: 36 modelli su 40 più propensi a sbagliare che sapere. GPT-5.5 xhigh: 86% hallucination rate vs Opus 4.7 max 36%. Perché il prompting non le elimina, pattern di validazione esterna che funzionano in produzione. Continua a leggere
Ultima modifica:

Dentro un Transformer: attention, MLP e residual stream spiegati per chi integra LLM in produzione

Dentro un Transformer: attention, MLP e residual stream spiegati per chi integra LLM in produzione GPT-4 ha ~1.800 miliardi di parametri; il modello legge il prompt in quattro componenti: embedding lookup, multi-head self-attention, MLP, unembedding+softmax. L'attention fa parlare i token fra loro, l'MLP inietta fatti, il residual stream è un nastro che trasporta i vettori ricorsivamente per decine di transformer block. Capire questo rende prevedibili allucinazioni, dipendenza dal prompt, sensibilità all'ordine. Continua a leggere
Ultima modifica:

Anthropic Tool Search Tool e Programmatic Tool Calling: agenti con 50+ tool MCP senza saturare il context

Anthropic Tool Search Tool e Programmatic Tool Calling: agenti con 50+ tool MCP senza saturare il context Quando un agent LLM ha 50+ tool registrati via MCP, il token overhead del solo prompt di registrazione supera i 20k token e saturare il context è questione di pochi turni. Anthropic ha rilasciato Tool Search Tool e Programmatic Tool Calling per spostare questo overhead da statico a dinamico - ti mostro il setup, i numeri misurati nella mia pipeline, e i trade-off di latenza. Continua a leggere
Ultima modifica:

Gestire molti progetti attivi con AI come co-pilota: metodo di un consulente senior per non impazzire

Gestire molti progetti attivi con AI come co-pilota: metodo di un consulente senior per non impazzire Gestire molti progetti attivi contemporaneamente è un problema cognitivo, non tecnico. Il context switching è costoso. Nella mia pipeline personale l'AI fa da co-pilota: knowledge management automatico, session handoff con memoria persistente, generazione di recap pre-chiamata cliente. Ti racconto il metodo e le automazioni concrete che mi permettono di non perdere qualità cambiando contesto. Continua a leggere
Ultima modifica:

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base The Illusion of Thinking di Apple (arxiv 2506.06941, Shojaee et al. giugno 2025) ha documentato tre regimi di performance dei LRM: bassa complessità dove il modello base è equivalente e più efficiente, media dove il reasoning guadagna, alta dove entrambi collassano a zero accuracy. Tabella comparativa con Torre di Hanoi, River Crossing, critica di Lawsen, Limit of RLVR (Yue 2025), implicazioni di progetto: cosa demandare davvero a un LRM e cosa deve restare in algoritmo formale. Continua a leggere
Ultima modifica:

Rust per inference edge di modelli leggeri: quando la performance supera la produttività di Python

Rust per inference edge di modelli leggeri: quando la performance supera la produttività di Python Python vince sulla produttività in fase di prototipazione AI. Rust vince in produzione edge quando la latenza e la memoria contano. Framework come Candle, Burn e ort rendono possibile eseguire modelli embedding e di classificazione con binari da 20 MB, latenza sub-millisecondo, memoria bounded. Ti mostro i casi d'uso dove ho sostituito Python con Rust: embedding generator per RAG, classificatori di intent, preprocessing pipeline. Con confronto diretto su benchmark reali. Continua a leggere
Ultima modifica:

Il riposizionamento dell'ingegnere senior nell'era del prompt operator

Il riposizionamento dell'ingegnere senior nell'era del prompt operator L'ingegnere che l'AI sostituisce non è quello che fa il lavoro che l'AI può fare. È quello che non ha mai costruito il giudizio per riconoscere quando l'AI sbaglia. Il riposizionamento da autore di codice a intent manager non è una concessione, è la skill tecnica che decide chi sopravvive a questa transizione di carriera. Continua a leggere
Ultima modifica: