Categoria

Pagina 1 di 3

LLM: utili quanto chi li usa, pericolosi quanto chi li usa male

I large language model sono strumenti potenti per chi sa cosa aspettarsi: accelerano la produzione di codice, la documentazione, i report, i test. Ma generano anche bug sottili, vulnerabilità di sicurezza, codice sbagliato che sembra giusto. La competenza dello sviluppatore resta il vincolo critico.

In questa categoria scrivo di LLM applicati allo sviluppo: valutazione dei modelli, prompt engineering, audit dell'output, integrazione in workflow senior. Parliamone, scopri il mio approccio.

Continual learning e World Models: la roadmap AGI di Amodei e Hassabis a confronto

Continual learning e World Models: la roadmap AGI di Amodei e Hassabis a confronto Dario Amodei e Demis Hassabis, i due CEO più autorevoli del settore AI, disegnano due roadmap diverse verso l'AGI. Amodei scommette su RLVR cross-domain come futuro scatto di generalizzazione. Hassabis sostiene che serva altro: continual learning, World Models, esperienza fisica simulata. Dietro il disaccordo una scelta di investimento che impatta le roadmap aziendali dei prossimi due anni. Confronto delle due strategie con dati 2025-2026 e implicazioni sul tipo di pipeline da costruire oggi. Continua a leggere
Ultima modifica:

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare

METR Time Horizon e benchmark maxing: come leggere i grafici di progresso degli LLM senza farsi ingannare Il grafico METR che mostra Opus 4.6 capace di risolvere compiti di 12 ore di lavoro umano nel 50% dei casi è virale come prova di AGI imminente. Letto per intero, il paper limita il test a software, ML e cybersec, con CI da 5 a 65 ore. Il fenomeno si chiama benchmark maxing: i benchmark misurabili sono tutti su task verificabili, mentre legali, commerciali e medici restano fermi. Analizzo METR, RLVR e AA Omniscience per distinguere progresso da hype. Continua a leggere
Ultima modifica:

Leggere un paper AI nel 2026: guida critica a benchmark, metodologia e claim esagerati

Leggere un paper AI nel 2026: guida critica a benchmark, metodologia e claim esagerati Su arXiv ogni giorno escono centinaia di paper AI e pochi thread Twitter li traducono in claim virali. The Illusion of Thinking di Apple è stato risposto con The Illusion of the Illusion of Thinking, paper semi-scherzoso scritto in larga parte da Claude Opus, e intere community scientifiche lo hanno citato senza leggerlo. Saper leggere un paper AI con occhio critico nel 2026 è competenza di business: la mia checklist in otto passaggi per capire se un lavoro porta evidenze o hype. Continua a leggere
Ultima modifica:

Lo strawberry problem e l'aritmetica degli LLM: diagnosi di quando NON usare un modello linguistico

Lo strawberry problem e l'aritmetica degli LLM: diagnosi di quando NON usare un modello linguistico Chiedi a GPT-5.4 quante R ci sono in strawberry e può ancora sbagliare. Chiedigli di moltiplicare due numeri di venti cifre e collassa. Non è qualità, è conseguenza strutturale di tokenizzazione, natura probabilistica del prossimo token e mancanza di un vero sistema due. Diagnosi operativa di cinque famiglie di compiti che non vanno mai chiesti a un LLM direttamente, con il criterio pratico per riconoscerle prima di progettare una pipeline che costerà sei mesi e fallirà. Continua a leggere
Ultima modifica:

Tokenizzazione degli LLM e italiano: la tassa nascosta del 64% sulla bolletta API e come ridurla

Tokenizzazione degli LLM e italiano: la tassa nascosta del 64% sulla bolletta API e come ridurla Un prompt in italiano consuma mediamente 1,64 volte i token di un equivalente in inglese. Misura verificata su GPT-4 e Claude Opus 4.7 nel 2026, con tre costi aziendali ignorati: bolletta API più alta, context window saturato prima, performance peggiori su lingue meno rappresentate. Analizzo i tokenizer BPE sulle lingue romanze, riporto le misure raccolte nella mia pipeline personale di automazione AI, e propongo tre strategie concrete per ridurre il tokenaggio in produzione. Continua a leggere
Ultima modifica:

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni DSPy (Khattab Stanford, ICLR 2024, arxiv 2310.03714) tratta i prompt come codice: dichiari la signature, fornisci 40-200 esempi di training, un compile bootstrappa il prompt ottimale contro una metrica. Batte il prompt engineering manuale esperto per 5-46% su GPT-3.5 e 16-40% su Llama. Confronto con CO-STAR, tabella decisionale, costi, pattern di integrazione in produzione enterprise. Continua a leggere
Ultima modifica:

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026 CO-STAR (GovTech Singapore, novembre 2023): Context, Objective, Style, Tone, Audience, Response. Checklist rigorosa per prompt enterprise che non assomigliano a blog post casual. Dodici punti di verifica, anti-pattern empirici (esempi negativi nel prompt, risposte suggerite nella domanda, CoT prompting sui modelli thinking), template riutilizzabile e strategia di versioning del prompt come codice con held-out di validazione. Continua a leggere
Ultima modifica:

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning Se il RAG aziendale fatica a trovare i documenti giusti, il problema quasi mai è nell'LLM: è negli embedding. Modelli generalisti come ada-3 o multilingual-e5 ignorano sigle di settore, convenzioni interne, tecnicismi italiani. Tutorial su 180.000 paragrafi: da Word2Vec (Mikolov 2013) ai bi-encoder fine-tuned, valutazione recall@10 e nDCG, integrazione Qdrant e pgvector, costi, pattern di aggiornamento. Continua a leggere
Ultima modifica:

Perché le allucinazioni LLM non si risolvono col prompting: rappresentazione distribuzionale e limiti architetturali

Perché le allucinazioni LLM non si risolvono col prompting: rappresentazione distribuzionale e limiti architetturali Nel 2023 Sam Altman prometteva di risolvere le allucinazioni in due anni; nel 2025 OpenAI stessa pubblica "Why Language Models Hallucinate" (arxiv 2509.04664) mostrando che sono strutturalmente inevitabili. AA-Omniscience 2025 di Artificial Analysis: 36 modelli su 40 più propensi a sbagliare che sapere. GPT-5.5 xhigh: 86% hallucination rate vs Opus 4.7 max 36%. Perché il prompting non le elimina, pattern di validazione esterna che funzionano in produzione. Continua a leggere
Ultima modifica:

Dentro un Transformer: attention, MLP e residual stream spiegati per chi integra LLM in produzione

Dentro un Transformer: attention, MLP e residual stream spiegati per chi integra LLM in produzione GPT-4 ha ~1.800 miliardi di parametri; il modello legge il prompt in quattro componenti: embedding lookup, multi-head self-attention, MLP, unembedding+softmax. L'attention fa parlare i token fra loro, l'MLP inietta fatti, il residual stream è un nastro che trasporta i vettori ricorsivamente per decine di transformer block. Capire questo rende prevedibili allucinazioni, dipendenza dal prompt, sensibilità all'ordine. Continua a leggere
Ultima modifica: