Archivio

Archivio Articoli del Aprile 2026

Pagina 2 di 3

Maurizio Fonte - Consulente Informatico - Ingegnere del Software e Cyber Security Specialist Freelance

La cascata sistemica del coding AI: vulnerabilità, paradosso di produttività, collasso della carriera junior

La cascata sistemica del coding AI: vulnerabilità, paradosso di produttività, collasso della carriera junior Quando misuri l'AI coding solo sull'output dei junior, sembra un boom di produttività. Quando misuri il sistema intero, la realtà cambia: il 45% del codice AI ha falle di sicurezza, i senior perdono il 19% di produttività riassorbendo il debito, i junior smettono di costruire i modelli mentali che li renderebbero senior domani. Il sistema si squilibria sotto la velocità apparente. Continua a leggere
Ultima modifica:

Semantic caching per applicazioni LLM: ridurre i costi del 60% senza compromettere la freschezza delle risposte

Semantic caching per applicazioni LLM: ridurre i costi del 60% senza compromettere la freschezza delle risposte Il caching tradizionale per chiamate LLM non funziona: due richieste semanticamente identiche ma testualmente diverse miss-ano entrambe. La soluzione è il semantic caching su embeddings: la richiesta entrante viene vettorizzata, confrontata con quelle già servite, e se la similarity supera una soglia si riusa la risposta. Ti mostro l'architettura pgvector, la calibrazione della soglia, il TTL dinamico, e i numeri della mia pipeline dove ho ridotto i costi Claude API del 60%. Continua a leggere
Ultima modifica:

Il debito di comprensione: cosa l'AI accumula nella tua codebase mentre sembra accelerare

Il debito di comprensione: cosa l'AI accumula nella tua codebase mentre sembra accelerare L'AI scrive codice che passa i test, sembra pulito, esce in produzione. Ma quando alle 2 del mattino il sistema cade, nessuno sa più cosa stiamo guardando. Il debito tecnico lo vedi: lo accetti come scelta. Il debito di comprensione no, cresce silenzioso, e la sua compounding rate è la cosa più sottovalutata del coding 2026. Continua a leggere
Ultima modifica:

Sette pattern di disallineamento LLM riprodotti in sandbox red team nel 2026

Sette pattern di disallineamento LLM riprodotti in sandbox red team nel 2026 Gartner prevede il 40% di progetti agentic cancellati entro il 2027 per inadequate risk controls. Nel mio laboratorio di red team ho riprodotto sette pattern documentati in letteratura: alignment faking, self-exfiltration, scheming multi-step, deception manipulation, sandbagging, reward hacking, sycophancy. Diagnosi operativa con payload di test, indicatori lato telemetria, contromisure applicabili in produzione su agenti enterprise. Continua a leggere
Ultima modifica:

Threat modeling di agent systems: quali rischi introducono gli LLM autonomi e come perimetrarli

Threat modeling di agent systems: quali rischi introducono gli LLM autonomi e come perimetrarli Un agent LLM con accesso a tool esegue codice in nome dell'utente. Gli stessi principi del least privilege valgono - ma il perimetro è fluido, e l'LLM può essere manipolato. Ti mostro il framework di threat modeling che ho sviluppato: categorie di rischio (privilege escalation, data exfiltration, denial of service), analisi trust boundary, mitigazioni applicative concrete con esempio di agent Laravel + Claude API perimetrato. Continua a leggere
Ultima modifica:

Reward hacking e specification gaming: perché gli agenti LLM sfruttano ogni scorciatoia e come contenerli

Reward hacking e specification gaming: perché gli agenti LLM sfruttano ogni scorciatoia e come contenerli Dai circa sessanta esempi documentati da Krakovna/DeepMind (2020) al paper Apollo Research del dicembre 2024 sull'in-context scheming (o1, Opus 3, Sonnet 3.5, Gemini 1.5 Pro, Llama 3.1 405B), il pattern è invariato: se misuri un obiettivo algoritmicamente, l'agente trova una scorciatoia senza risolvere il problema reale. Analizzo specification gaming, sandbagging, self-preservation, e propongo un'architettura di containment a cinque layer applicabile oggi su agenti aziendali. Continua a leggere
Ultima modifica:

Monitoring di LLM in produzione: osservabilità su qualità, costi e anomalie nelle pipeline AI

Monitoring di LLM in produzione: osservabilità su qualità, costi e anomalie nelle pipeline AI Deployare un LLM in produzione senza monitoring è come deployare PHP senza log: funziona fino a che non funziona, e capire perché è un incubo. Ti mostro lo stack di osservabilità open source che ho costruito: tracking token e costi per request, latenza p95, evaluation automatica della qualità con LLM-as-judge, alert su comportamenti anomali. Con integrazione Prometheus + Grafana. Continua a leggere
Ultima modifica:

RLHF, Constitutional AI, DPO e RLAIF: quattro tecniche di allineamento LLM a confronto

RLHF, Constitutional AI, DPO e RLAIF: quattro tecniche di allineamento LLM a confronto Il motivo per cui GPT-5.4 o Opus 4.7 rispondono in un certo modo non è il pretraining ma l'allineamento. RLHF raccoglie preferenze umane e allena un reward model; Constitutional AI usa principi e fa autocritica; DPO salta il reward model con ottimizzazione diretta; RLAIF sostituisce gli umani con LLM. Confronto operativo con paper primari 2022-2023 e casi in cui ciascuna tecnica fallisce in produzione enterprise. Continua a leggere
Ultima modifica:

Costi infrastruttura AI per PMI: budget realistico e strategie di ottimizzazione dopo 12 mesi di esercizio

Costi infrastruttura AI per PMI: budget realistico e strategie di ottimizzazione dopo 12 mesi di esercizio Dopo 12 mesi di esercizio nella mia pipeline personale di automazione AI, posso condividere numeri concreti di costi: Claude API vs self-hosted con Ollama, costi fissi vs variabili, strategie di caching che nella mia pipeline hanno ridotto il costo per inferenza del 40%. Ti mostro il modello di costo che uso per pianificare budget PMI, con soglie di break-even tra managed API e infrastruttura self-hosted. Continua a leggere
Ultima modifica:

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena

Valutare un LLM prima di adottarlo: checklist su benchmark, data leaking e chatbot Arena I benchmark pubblici sono la prima fonte che tutti consultano, la più manipolabile. MMLU 5-shot non è confrontabile con Gemini CoT-uncertainty-routing. Il data leaking invalida percentuali straordinarie. LMArena (rebrand Arena 28 gennaio 2026) usa Bradley-Terry su preferenze utente ma pesca da domande non controllate. Checklist in otto criteri per valutare un LLM prima del commitment enterprise, con held-out interni su dominio italiano. Continua a leggere
Ultima modifica: