Categoria

LLM

Pagina 1 di 4

LLM: utili quanto chi li usa, pericolosi quanto chi li usa male

I large language model sono strumenti potenti per chi sa cosa aspettarsi: accelerano la produzione di codice, la documentazione, i report, i test. Ma generano anche bug sottili, vulnerabilità di sicurezza, codice sbagliato che sembra giusto. La competenza dello sviluppatore resta il vincolo critico.

In questa categoria scrivo di LLM applicati allo sviluppo: valutazione dei modelli, prompt engineering, audit dell'output, integrazione in workflow senior. Parliamone, scopri il mio approccio.

The Real Cost of a Self-Hosted Coding LLM: Energy, ROI and Concurrency on a 16GB GPU

12/07/2026

The companion to the Ornith-vs-Qwable benchmark turns from which model to what it costs. I measured the power a 9B coding model draws on a 16GB GPU, then set the energy bill against Claude's and Copilot's 2026 list prices: the marginal cost per million tokens is one to two orders of magnitude below any API tier. But the card only pays off on real token volume, autocomplete alone loses to Copilot's flat plan, and 16GB is a single-stream device: you scale by adding cards, not developers. Continua a leggere

Ultima modifica: Domenica 12 Luglio 2026, alle 11:35

LLM Agentic Coding Self-hosting llama.cpp GitHub Copilot

Ornith vs Qwable: Benchmarking Two 9B Coding Agents on a 16GB GPU

12/07/2026

The third part of the local-inference series drops from the 35B MoE to the models most people want on a coding workstation: small, dense, 9-billion-parameter agents. I ran two of them, same base and opposite training recipes, through a full agent loop on a real buggy project plus a Copilot-style autocomplete bench. Neither speed nor correctness separates them: the discriminator is agentic path economy, training- and task-shaped. And local can stand in for Copilot warm, with one 16GB asterisk. Continua a leggere

Ultima modifica: Domenica 12 Luglio 2026, alle 11:05

LLM LLM Automation Risk Management Management IT Consulenza IT

Sycophancy degli LLM: rischio nascosto nelle decisioni aziendali e framework Ask-Don't-Tell a confronto

30/06/2026

Quando chiedi a Claude o GPT di analizzare una strategia, una proposta di pricing o un audit interno, il modello tende sistematicamente a darti ragione. Il fenomeno si chiama sycophancy: deriva strutturalmente da RLHF e reward model umano. Il Bullshit Bench 2026 misura che in dominio medico i modelli fanno pushback su premesse errate solo nel 36% dei casi. Confronto fra principali modelli 2026 e mitigation Ask-Don't-Tell che riduce la sycophancy del 40-60% senza fine-tuning. Continua a leggere

Ultima modifica: Martedì 30 Giugno 2026, alle 08:55

Cybersecurity Avanzata LLM Agent systems Threat modeling Code Audit

White-box analysis degli LLM: Persona Vectors, emozioni funzionali e checklist di audit per agenti di produzione

26/06/2026

La system card di Mythos del 2026 include più di 40 pagine di white-box analysis: feature distinte per etica, vergogna, stress, ostinazione si attivano quando il modello intraprende azioni non allineate. Anthropic chiama Persona Vectors questa sovrapposizione di stati funzionali. Checklist di audit in dieci punti per verificare se il modello ha feature di deception, reward hacking, self-preservation attive, con strumenti open source da integrare in pipeline. Continua a leggere

Ultima modifica: Venerdì 26 Giugno 2026, alle 08:27

LLM LLM Automation Claude API Budget IT Developer workflow

Prompt caching workspace-level di Anthropic: perché i tuoi agenti costano troppo e come diagnosticare le cache mancate

18/06/2026

Dal febbraio 2026 Anthropic offre prompt caching workspace-level con cache hit al 10% del prezzo input. Eppure nella maggioranza delle integrazioni che vedo in consulenza le cache sono mancate nel 60-80% delle chiamate per errori di design banali. Diagnosi sistematica: cache prefix vs suffix, invalidazione accidentale del system prompt, bloccaggio con tool list dinamica, e pattern che ho misurato portare fino a 90% di risparmio sulla bolletta API. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Self-hosting Data Sovereignty AI Governance

Running an LLM Locally on a 16GB Consumer GPU: Why It Suddenly Matters in 2026

16/06/2026

Running a serious LLM on your own hardware is no longer a lab exercise. I put a 16GB consumer GPU through a 35-billion-parameter Mixture-of-Experts model with 262,000 tokens of context, and the agentic tool-calling came out 100% reliable. This is the strategic half of the story: why local inference turned from a hobby into architectural insurance in 2026, after a frontier model was suspended worldwide by government order. The hard numbers live in the companion deep-dive. Continua a leggere

Ultima modifica: Domenica 12 Luglio 2026, alle 17:47

Cybersecurity PMI Risk Management Compliance LLM Management IT

AI detector su testo: perplexity, humanizer e il rischio di accusa per falsi positivi

16/06/2026

ZeroGPT ha flaggato pezzi della Costituzione USA, Frankenstein capitolo 5 e sezioni Wikipedia come AI-generated. Originality.ai e Pangram, che rivendicano 99,98% accuratezza, cedono entrambi dopo una singola passata negli humanizer commerciali. Tante aziende italiane stanno introducendo questi strumenti in HR ed editoriale, esponendosi a falsi positivi che diventano accuse reali. Approfondimento su perplexity, burstiness, come i detector falliscono matematicamente, perimetro di rischio legale. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation Risk Management AI Code Security Management IT

AA Omniscience e il confronto sulle allucinazioni: quale modello sa dire "non lo so" nel 2026

08/06/2026

AA Omniscience di Artificial Analysis (novembre 2025) misura su 6.000 domande in 6 domini un fenomeno che le big AI preferiscono ignorare: quando il modello non sa, inventa o dice non lo so? Solo 3 modelli su 36 ottengono punteggio sopra zero (Claude Opus 4.1, GPT-5.1, Grok 4). Anthropic occupa le prime 3 posizioni per hallucination rate più basso. Tabella comparativa 2026 e implicazioni pratiche per chi sta scegliendo un modello per la pipeline aziendale. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Management IT Strategia IT

Anthropic Economic Index: i dati di uso reale di Claude nei mestieri e cosa dicono alle aziende italiane

04/06/2026

Anthropic Economic Index 2026: analisi su 900+ mestieri O*NET incrociata con dati reali Claude. Per ogni lavoro due cerchi: limite teorico e uso reale. Il 49% dei mestieri ha già almeno un quarto dei task svolti con Claude, ma il gap fra teorico e reale non si chiude per affidabilità, barriere legali, trust. Analizzo i dati di marzo 2026 per sette categorie di mestiere presenti nelle PMI italiane (sviluppatori, contabili, legali, HR, commerciali, project manager, tecnici). Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Strategia IT Cloud Infrastructure

Continual learning e World Models: la roadmap AGI di Amodei e Hassabis a confronto

29/05/2026

Dario Amodei e Demis Hassabis, i due CEO più autorevoli del settore AI, disegnano due roadmap diverse verso l'AGI. Amodei scommette su RLVR cross-domain come futuro scatto di generalizzazione. Hassabis sostiene che serva altro: continual learning, World Models, esperienza fisica simulata. Dietro il disaccordo una scelta di investimento che impatta le roadmap aziendali dei prossimi due anni. Confronto delle due strategie con dati 2025-2026 e implicazioni sul tipo di pipeline da costruire oggi. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51