Categoria

Pagina 2 di 3

LLM: utili quanto chi li usa, pericolosi quanto chi li usa male

I large language model sono strumenti potenti per chi sa cosa aspettarsi: accelerano la produzione di codice, la documentazione, i report, i test. Ma generano anche bug sottili, vulnerabilità di sicurezza, codice sbagliato che sembra giusto. La competenza dello sviluppatore resta il vincolo critico.

In questa categoria scrivo di LLM applicati allo sviluppo: valutazione dei modelli, prompt engineering, audit dell'output, integrazione in workflow senior. Parliamone, scopri il mio approccio.

Perché le allucinazioni LLM non si risolvono col prompting: rappresentazione distribuzionale e limiti architetturali

Perché le allucinazioni LLM non si risolvono col prompting: rappresentazione distribuzionale e limiti architetturali Nel 2023 Sam Altman prometteva di risolvere le allucinazioni in due anni; nel 2025 OpenAI stessa pubblica "Why Language Models Hallucinate" (arxiv 2509.04664) mostrando che sono strutturalmente inevitabili. AA-Omniscience 2025 di Artificial Analysis: 36 modelli su 40 più propensi a sbagliare che sapere. GPT-5.5 xhigh: 86% hallucination rate vs Opus 4.7 max 36%. Perché il prompting non le elimina, pattern di validazione esterna che funzionano in produzione. Continua a leggere
Ultima modifica:

Dentro un Transformer: attention, MLP e residual stream spiegati per chi integra LLM in produzione

Dentro un Transformer: attention, MLP e residual stream spiegati per chi integra LLM in produzione GPT-4 ha ~1.800 miliardi di parametri; il modello legge il prompt in quattro componenti: embedding lookup, multi-head self-attention, MLP, unembedding+softmax. L'attention fa parlare i token fra loro, l'MLP inietta fatti, il residual stream è un nastro che trasporta i vettori ricorsivamente per decine di transformer block. Capire questo rende prevedibili allucinazioni, dipendenza dal prompt, sensibilità all'ordine. Continua a leggere
Ultima modifica:

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base

Large reasoning model e paper Apple: tre regimi di performance, collasso e confronto con i modelli base The Illusion of Thinking di Apple (arxiv 2506.06941, Shojaee et al. giugno 2025) ha documentato tre regimi di performance dei LRM: bassa complessità dove il modello base è equivalente e più efficiente, media dove il reasoning guadagna, alta dove entrambi collassano a zero accuracy. Tabella comparativa con Torre di Hanoi, River Crossing, critica di Lawsen, Limit of RLVR (Yue 2025), implicazioni di progetto: cosa demandare davvero a un LRM e cosa deve restare in algoritmo formale. Continua a leggere
Ultima modifica:

Chain-of-thought: quando attivarlo e quando disattivarlo: checklist in sette criteri

Chain-of-thought: quando attivarlo e quando disattivarlo: checklist in sette criteri Chain-of-thought nel 2022 ha sbloccato il ragionamento negli LLM; nel 2026 è tra i principali contributori a latenza, costi e overthinking. Il paper Anthropic Reasoning Models Don't Always Say What They Think (2505.05410) ha mostrato CoT faithful solo nel 25% dei casi su Claude 3.7 Sonnet. Checklist in sette criteri per decidere quando attivare, disattivare o vincolare il thinking su Claude, GPT-5.4 e Gemini 3.1, con ROI misurabile. Continua a leggere
Ultima modifica:

Ragionamento con tool: Alpha Evolve e Codex per far risolvere problemi formali a un LLM

Ragionamento con tool: Alpha Evolve e Codex per far risolvere problemi formali a un LLM Gli LLM sono ragionatori euristici, non formali: Torre di Hanoi a 10 dischi = accuracy zero. Se chiedi al modello di scrivere il programma che la risolve, accuracy 100%. Principio identico in AlphaEvolve DeepMind (2506.13131): matrix mult 4x4 in 48 scalar mult, primo miglioramento in 56 anni su Strassen. Tutorial operativo sul tool use in Claude, GPT-5.3-Codex e Gemini, sandboxing sicuro, recovery rate, loop infiniti. Continua a leggere
Ultima modifica:

Reward hacking e specification gaming: perché gli agenti LLM sfruttano ogni scorciatoia e come contenerli

Reward hacking e specification gaming: perché gli agenti LLM sfruttano ogni scorciatoia e come contenerli Dai circa sessanta esempi documentati da Krakovna/DeepMind (2020) al paper Apollo Research del dicembre 2024 sull'in-context scheming (o1, Opus 3, Sonnet 3.5, Gemini 1.5 Pro, Llama 3.1 405B), il pattern è invariato: se misuri un obiettivo algoritmicamente, l'agente trova una scorciatoia senza risolvere il problema reale. Analizzo specification gaming, sandbagging, self-preservation, e propongo un'architettura di containment a cinque layer applicabile oggi su agenti aziendali. Continua a leggere
Ultima modifica:

RLHF, Constitutional AI, DPO e RLAIF: quattro tecniche di allineamento LLM a confronto

RLHF, Constitutional AI, DPO e RLAIF: quattro tecniche di allineamento LLM a confronto Il motivo per cui GPT-5.4 o Opus 4.7 rispondono in un certo modo non è il pretraining ma l'allineamento. RLHF raccoglie preferenze umane e allena un reward model; Constitutional AI usa principi e fa autocritica; DPO salta il reward model con ottimizzazione diretta; RLAIF sostituisce gli umani con LLM. Confronto operativo con paper primari 2022-2023 e casi in cui ciascuna tecnica fallisce in produzione enterprise. Continua a leggere
Ultima modifica:

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena I benchmark pubblici sono la prima fonte che tutti consultano, la più manipolabile. MMLU 5-shot non è confrontabile con Gemini CoT-uncertainty-routing. Il data leaking invalida percentuali straordinarie. LMArena (rebrand Arena 28 gennaio 2026) usa Bradley-Terry su preferenze utente ma pesca da domande non controllate. Checklist in otto criteri per valutare un LLM prima del commitment enterprise, con held-out interni su dominio italiano. Continua a leggere
Ultima modifica:

In-context learning e few-shot prompting: il superpotere degli LLM spiegato per integrazioni di produzione

In-context learning e few-shot prompting: il superpotere degli LLM spiegato per integrazioni di produzione Il paper GPT-3 del 2020 si chiama Language Models are Few-Shot Learners non a caso. L'in-context learning, la capacità di un LLM di apprendere un compito dai soli esempi nel prompt senza aggiornare i pesi, è la rivoluzione che ha reso possibile tutto il resto. Nella mia pipeline lo uso per costringere Claude a produrre output strutturati senza fine-tuning, trasferire stile su testi tecnici italiani, incidentare comportamenti. Tutorial pratico con sei pattern reali e trappole comuni. Continua a leggere
Ultima modifica:

Distillation e Deep Seek: la tecnica con cui un modello piccolo eredita le capacità di uno grande

Distillation e Deep Seek: la tecnica con cui un modello piccolo eredita le capacità di uno grande La distillation insegna a un modello piccolo (student) a imitare le risposte di uno grande (teacher) su un compito specifico. OpenAI ha accusato Deep Seek di averla usata contro i termini GPT-4; Anthropic ha inserito in Claude Code un sistema anti-distillation con tool call fittizi. Resta lo strumento principe per portare capacità da 1,8T parametri a 8B runnabili su laptop. Analizzo tecnica, errori operativi e quando ha senso in una pipeline PMI italiana. Continua a leggere
Ultima modifica: