Archivio

Archivio Articoli del Aprile 2026

Pagina 2 di 3

Maurizio Fonte - Consulente Informatico - Ingegnere del Software e Cyber Security Specialist Freelance

LLM LLM Automation AI Development Tools Developer workflow Claude Code

Ragionamento con tool: Alpha Evolve e Codex per far risolvere problemi formali a un LLM

22/04/2026

Ragionamento con tool: Alpha Evolve e Codex per far risolvere problemi formali a un LLM

Gli LLM sono ragionatori euristici, non formali: Torre di Hanoi a 10 dischi = accuracy zero. Se chiedi al modello di scrivere il programma che la risolve, accuracy 100%. Principio identico in AlphaEvolve DeepMind (2506.13131): matrix mult 4x4 in 48 scalar mult, primo miglioramento in 56 anni su Strassen. Tutorial operativo sul tool use in Claude, GPT-5.3-Codex e Gemini, sandboxing sicuro, recovery rate, loop infiniti. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cybersecurity AI OWASP LLM Top 10 Code Audit Veracode Productivity Paradox

La cascata sistemica del coding AI: vulnerabilità, paradosso di produttività, collasso della carriera junior

21/04/2026

La cascata sistemica del coding AI: vulnerabilità, paradosso di produttività, collasso della carriera junior

Quando misuri l'AI coding solo sull'output dei junior, sembra un boom di produttività. Quando misuri il sistema intero, la realtà cambia: il 45% del codice AI ha falle di sicurezza, i senior perdono il 19% di produttività riassorbendo il debito, i junior smettono di costruire i modelli mentali che li renderebbero senior domani. Il sistema si squilibria sotto la velocità apparente. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cloud Infrastructure LLM Automation Caching Vector database Budget IT

Semantic caching per applicazioni LLM: ridurre i costi del 60% senza compromettere la freschezza delle risposte

21/04/2026

Semantic caching per applicazioni LLM: ridurre i costi del 60% senza compromettere la freschezza delle risposte

Il caching tradizionale per chiamate LLM non funziona: due richieste semanticamente identiche ma testualmente diverse miss-ano entrambe. La soluzione è il semantic caching su embeddings: la richiesta entrante viene vettorizzata, confrontata con quelle già servite, e se la similarity supera una soglia si riusa la risposta. Ti mostro l'architettura pgvector, la calibrazione della soglia, il TTL dinamico, e i numeri della mia pipeline dove ho ridotto i costi Claude API del 60%. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation AI Coding Technical Debt Code Quality Decision Maker

Il debito di comprensione: cosa l'AI accumula nella tua codebase mentre sembra accelerare

20/04/2026

Il debito di comprensione: cosa l'AI accumula nella tua codebase mentre sembra accelerare

L'AI scrive codice che passa i test, sembra pulito, esce in produzione. Ma quando alle 2 del mattino il sistema cade, nessuno sa più cosa stiamo guardando. Il debito tecnico lo vedi: lo accetti come scelta. Il debito di comprensione no, cresce silenzioso, e la sua compounding rate è la cosa più sottovalutata del coding 2026. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cybersecurity Avanzata Agent systems Red Team Threat modeling Offensive Security

Sette pattern di disallineamento LLM riprodotti in sandbox red team nel 2026

20/04/2026

Sette pattern di disallineamento LLM riprodotti in sandbox red team nel 2026

Gartner prevede il 40% di progetti agentic cancellati entro il 2027 per inadequate risk controls. Nel mio laboratorio di red team ho riprodotto sette pattern documentati in letteratura: alignment faking, self-exfiltration, scheming multi-step, deception manipulation, sandbagging, reward hacking, sycophancy. Diagnosi operativa con payload di test, indicatori lato telemetria, contromisure applicabili in produzione su agenti enterprise. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cybersecurity Avanzata AI Code Security Threat modeling Agent systems OWASP

Threat modeling di agent systems: quali rischi introducono gli LLM autonomi e come perimetrarli

17/04/2026

Threat modeling di agent systems: quali rischi introducono gli LLM autonomi e come perimetrarli

Un agent LLM con accesso a tool esegue codice in nome dell'utente. Gli stessi principi del least privilege valgono - ma il perimetro è fluido, e l'LLM può essere manipolato. Ti mostro il framework di threat modeling che ho sviluppato: categorie di rischio (privilege escalation, data exfiltration, denial of service), analisi trust boundary, mitigazioni applicative concrete con esempio di agent Laravel + Claude API perimetrato. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cybersecurity Avanzata Agent systems Red Team Threat modeling LLM

Reward hacking e specification gaming: perché gli agenti LLM sfruttano ogni scorciatoia e come contenerli

16/04/2026

Reward hacking e specification gaming: perché gli agenti LLM sfruttano ogni scorciatoia e come contenerli

Dai circa sessanta esempi documentati da Krakovna/DeepMind (2020) al paper Apollo Research del dicembre 2024 sull'in-context scheming (o1, Opus 3, Sonnet 3.5, Gemini 1.5 Pro, Llama 3.1 405B), il pattern è invariato: se misuri un obiettivo algoritmicamente, l'agente trova una scorciatoia senza risolvere il problema reale. Analizzo specification gaming, sandbagging, self-preservation, e propongo un'architettura di containment a cinque layer applicabile oggi su agenti aziendali. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM monitoring LLM Automation Observability Claude API DevOps

Monitoring di LLM in produzione: osservabilità su qualità, costi e anomalie nelle pipeline AI

15/04/2026

Monitoring di LLM in produzione: osservabilità su qualità, costi e anomalie nelle pipeline AI

Deployare un LLM in produzione senza monitoring è come deployare PHP senza log: funziona fino a che non funziona, e capire perché è un incubo. Ti mostro lo stack di osservabilità open source che ho costruito: tracking token e costi per request, latenza p95, evaluation automatica della qualità con LLM-as-judge, alert su comportamenti anomali. Con integrazione Prometheus + Grafana. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Development Tools Agent systems AI Code Security

RLHF, Constitutional AI, DPO e RLAIF: quattro tecniche di allineamento LLM a confronto

14/04/2026

RLHF, Constitutional AI, DPO e RLAIF: quattro tecniche di allineamento LLM a confronto

Il motivo per cui GPT-5.4 o Opus 4.7 rispondono in un certo modo non è il pretraining ma l'allineamento. RLHF raccoglie preferenze umane e allena un reward model; Constitutional AI usa principi e fa autocritica; DPO salta il reward model con ottimizzazione diretta; RLAIF sostituisce gli umani con LLM. Confronto operativo con paper primari 2022-2023 e casi in cui ciascuna tecnica fallisce in produzione enterprise. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Cloud Infrastructure LLM Automation ROI IT Budget IT PMI

Costi infrastruttura AI per PMI: budget realistico e strategie di ottimizzazione dopo 12 mesi di esercizio

13/04/2026

Costi infrastruttura AI per PMI: budget realistico e strategie di ottimizzazione dopo 12 mesi di esercizio

Dopo 12 mesi di esercizio nella mia pipeline personale di automazione AI, posso condividere numeri concreti di costi: Claude API vs self-hosted con Ollama, costi fissi vs variabili, strategie di caching che nella mia pipeline hanno ridotto il costo per inferenza del 40%. Ti mostro il modello di costo che uso per pianificare budget PMI, con soglie di break-even tra managed API e infrastruttura self-hosted. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Calendario

Archivi