Archivio Articoli del Maggio 2026 - Pagina 2 di 3

Tokenizzazione degli LLM e italiano: la tassa nascosta del 64% sulla bolletta API e come ridurla

19/05/2026

Un prompt in italiano consuma mediamente 1,64 volte i token di un equivalente in inglese. Misura verificata su GPT-4 e Claude Opus 4.7 nel 2026, con tre costi aziendali ignorati: bolletta API più alta, context window saturato prima, performance peggiori su lingue meno rappresentate. Analizzo i tokenizer BPE sulle lingue romanze, riporto le misure raccolte nella mia pipeline personale di automazione AI, e propongo tre strategie concrete per ridurre il tokenaggio in produzione. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cybersecurity Avanzata AI Act Compliance PMI Governance AI

AI Act 2 agosto 2026: checklist 90 giorni per PMI italiane anche se il rinvio arriverà

18/05/2026

Il 26 marzo 2026 il Parlamento Europeo ha votato il rinvio dell'AI Act Annex III al 2 dicembre 2027, ma il trilogue non è concluso e gli standard CEN-CENELEC non sono pronti. La posizione prudente per una PMI italiana è pianificare come se la deadline del 2 agosto 2026 fosse ancora binding. Otto azioni concrete da eseguire in 90 giorni, dalla mappatura dei sistemi AI al balancing test documentato, con checklist sanitaria e tempo di esecuzione stimato per ogni passo. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Claude API Python

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

15/05/2026

DSPy (Khattab Stanford, ICLR 2024, arxiv 2310.03714) tratta i prompt come codice: dichiari la signature, fornisci 40-200 esempi di training, un compile bootstrappa il prompt ottimale contro una metrica. Batte il prompt engineering manuale esperto per 5-46% su GPT-3.5 e 16-40% su Llama. Confronto con CO-STAR, tabella decisionale, costi, pattern di integrazione in produzione enterprise. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Agent systems RPA Claude API Data Sovereignty

Gemini 3.1 Pro Computer Use vs Claude Computer Use: chi vince su RPA enterprise europea

14/05/2026

Gemini 3.1 Pro integra Computer Use nativo (niente modello separato) con 1M context standard. Claude Computer Use è stabile ma richiede Sonnet 4.6/Opus 4.7 dedicati. Ho benchmarkato entrambi su OSWorld-V e su tre workflow reali (SAP login, estrazione dati gestionale, onboarding cliente) nella mia sandbox. Tabella pricing, latenza P95, accuracy per tipo di task, e considerazioni data sovereignty per aziende europee. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Claude API Developer workflow

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

13/05/2026

CO-STAR (GovTech Singapore, novembre 2023): Context, Objective, Style, Tone, Audience, Response. Checklist rigorosa per prompt enterprise che non assomigliano a blog post casual. Dodici punti di verifica, anti-pattern empirici (esempi negativi nel prompt, risposte suggerite nella domanda, CoT prompting sui modelli thinking), template riutilizzabile e strategia di versioning del prompt come codice con held-out di validazione. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cybersecurity Avanzata Red Team CVE MCP WAF

Flowise CVE-2025-59528 RCE 10.0: autopsia dell'exploit che ho riprodotto nel mio laboratorio

12/05/2026

Il 14 aprile 2026 ho messo una istanza Flowise 2.x volontariamente esposta nella mia sandbox di audit per riprodurre la CVE-2025-59528 - una RCE CVSS 10.0 già sfruttata in the wild su oltre 12.000 istanze Internet-facing. In 12 minuti dal deploy, payload Function('return ' + input)() iniettato su mcpServerConfig ha restituito shell root del container. Ti racconto la catena completa, l'impatto di supply chain sulle chiavi API LLM salvate, e le tre regole WAF che la bloccano. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation RAG Vector database Python

Embeddings dominio-specifici per RAG italiano: costruire vettori su vocabolario aziendale con Word2Vec e fine-tuning

11/05/2026

Se il RAG aziendale fatica a trovare i documenti giusti, il problema quasi mai è nell'LLM: è negli embedding. Modelli generalisti come ada-3 o multilingual-e5 ignorano sigle di settore, convenzioni interne, tecnicismi italiani. Tutorial su 180.000 paragrafi: da Word2Vec (Mikolov 2013) ai bi-encoder fine-tuned, valutazione recall@10 e nDCG, integrazione Qdrant e pgvector, costi, pattern di aggiornamento. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API Cost Governance Budget IT Tokenization

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato

08/05/2026

Claude Opus 4.7 ha prezzo headline invariato rispetto a 4.6 - $5/$25 per milione di token. Ma dopo tre settimane di esercizio nella mia pipeline ho notato che la bolletta API era salita del 31% a parità di volume di chiamate. La causa: il nuovo tokenizer usa in media +35% token per lo stesso testo, e le cache pre-4.7 sono state invalidate. Ti mostro la diagnostica, i numeri misurati e come ricalcolare il budget. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation Risk Management AI Code Security Consulenza IT

Perché le allucinazioni LLM non si risolvono col prompting: rappresentazione distribuzionale e limiti architetturali

07/05/2026

Nel 2023 Sam Altman prometteva di risolvere le allucinazioni in due anni; nel 2025 OpenAI stessa pubblica "Why Language Models Hallucinate" (arxiv 2509.04664) mostrando che sono strutturalmente inevitabili. AA-Omniscience 2025 di Artificial Analysis: 36 modelli su 40 più propensi a sbagliare che sapere. GPT-5.5 xhigh: 86% hallucination rate vs Opus 4.7 max 36%. Perché il prompting non le elimina, pattern di validazione esterna che funzionano in produzione. Continua a leggere

Ultima modifica: Mercoledì 24 Giugno 2026, alle 18:27

Multi-Stack MCP Node.js Python Load Balancing

MCP stateless con SEP-1442: perché rifare il tuo server prima della spec di giugno 2026

06/05/2026

La prossima spec MCP è prevista per giugno 2026 e la proposta SEP-1442 rimuove l'handshake iniziale rendendo ogni request indipendente. Chi ha server MCP production-grade dietro load balancer con session affinity deve rifare l'architettura entro fine Q2. Ti mostro cosa cambia, come preparare il tuo server Node o Python stateless, e quali pattern di capability discovery sostituiscono il vecchio initialize. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51