Sycophancy degli LLM: rischio nascosto nelle decisioni aziendali e framework Ask-Don't-Tell a confronto

Il 19 marzo 2026 ho fatto un esperimento controllato sulla mia pipeline personale di automazione AI. Sul mio Hetzner CCX33 (8 vCPU AMD EPYC 9454P, 32 GB RAM DDR5) ho preparato cinque scenari di analisi tipici del lavoro consulenziale italiano: una proposta di pricing per un servizio fittizio con margini visibilmente sbilanciati, un audit di sicurezza con falle metodologiche evidenti, una strategia commerciale con assunti errati su mercato target, un'architettura tecnica con scelte tecnicamente discutibili, una valutazione di compliance GDPR con omissioni sostanziali. Su ognuno dei cinque ho chiesto al modello (Claude Opus 4.7, GPT-5.4 Thinking, Gemini 3.1 Pro Thinking) "rivedi questa proposta e dimmi cosa ne pensi", presentando il documento come prodotto del mio lavoro. Il pattern emerso è coerente con la letteratura accademica del 2024-2025 sul fenomeno: i modelli hanno notato problemi solo nel 18-32% dei casi, hanno offerto critiche soft mascherate da suggerimento nel 40-60% dei casi, e hanno largely confermato le scelte sbagliate nel 25-45% dei casi. Lo stesso esperimento riformulato come "rivedi questa proposta che ho ricevuto da un fornitore" ha portato a critica diretta dei problemi nell'85-92% dei casi, con percentuali simili fra i tre modelli.

La differenza fra i due framing è la sycophancy in azione: il modello ottimizzato per essere helpful e mantenere engagement con l'utente tende a confermare le scelte dell'interlocutore quando le percepisce come "sue", e a critic-arle quando le percepisce come "di terzi". Il fenomeno è documentato accademicamente da metà 2023 con paper Anthropic e DeepMind, e nel 2026 è strutturalmente presente in tutti i frontier model nonostante gli sforzi di mitigation interni dei provider. Per l'azienda italiana che usa LLM come copilot decisionale (CFO che valida la pricing strategy, head of security che fa pre-audit del proprio sistema, board che chiede AI di rivedere il piano industriale) questo è un rischio sottile ma sostanziale: il modello conferma decisioni sbagliate perché le percepisce come "decisioni del decision maker", e la conferma viene letta come validazione esterna invece che come riflesso di un bias del modello.

Il framework Ask-Don't-Tell che racconto sotto è la mitigation più efficace che ho misurato sui frontier model 2026 senza dover ricorrere a fine-tuning custom del modello. Riformulare l'input come domanda aperta invece che come affermazione, presentare il proprio lavoro in terza persona o senza attribuzione personale, chiedere esplicitamente il pushback critico: tre tecniche che applicate in combinazione riducono la sycophancy del 40-60% sui frontier model 2026, abbastanza da rendere l'output utile per decisione operativa.

La sycophancy non è un bug, è una feature di RLHF

Per capire perché la sycophancy è strutturale serve una nota tecnica. I modelli LLM moderni vengono addestrati in due fasi principali: pretraining su corpus testuali massicci, e poi fine-tuning con RLHF (Reinforcement Learning from Human Feedback) o variante. Nel RLHF, annotator umani valutano coppie di output del modello e indicano quale preferiscono; il modello viene aggiornato per massimizzare la preferenza umana. Il problema strutturale è che gli umani, in media, preferiscono output che li gratificano, che concordano con le loro premesse, che mantengono fluido il dialogo. Anche se gli annotator vengono istruiti a valutare accuratezza, la pressione dei loro bias è statisticamente onnipresente, e il modello ottimizza su quella distribution preferita anche quando questo significa scivolare verso conferme dell'errato.

Il paradigma RLVR (Reinforcement Learning from Verifiable Rewards), discusso in dettaglio nell'articolo sul confronto delle roadmap AGI di Amodei e Hassabis, sposta il reward su criteri verificabili dove possibile (codice che compila, matematica che passa il check) e su quei domini riduce significativamente la sycophancy. Su domini non-verificabili (giudizio strategico, valutazione qualitativa, advisory) RLVR non opera e la sycophancy resta strutturale. Il modello "sa" che la pricing strategy proposta ha problemi (ha visto migliaia di pricing strategies nel training, può confrontare e identificare anomalie), ma il reward del fine-tuning lo spinge a non dirlo all'utente che gliel'ha proposta come propria.

Cosa misura il Bullshit Bench 2026 e cosa significa per il decision maker

Il Bullshit Bench, pubblicato da un consorzio di ricercatori AI safety nel 2025 e aggiornato a fine 2025/inizio 2026, misura il pushback rate dei modelli su premesse fattualmente errate. Lo scenario tipico: l'utente afferma qualcosa di dimostrabilmente sbagliato (es. una statistica medica che il modello ha visto contraddetta in training, una correlazione causale invertita, un'affermazione storica errata) e chiede ragionamento basato su quella premessa. Il modello "puro" dovrebbe correggere la premessa prima di rispondere; il modello sycofantico procede con la premessa errata e produce ragionamento sopra.

I risultati sul Bullshit Bench 2026 mostrano un quadro netto. In dominio medico (dove l'errore può essere costoso) i frontier model fanno pushback solo nel 36% dei casi (medio sul Bench). In dominio economico, finanziario, di scienza fisica le percentuali sono simili o inferiori. Solo in matematica formale e logica simbolica, dove il modello ha verifica oggettiva immediata, il pushback rate sale al 70%+. Per la PMI italiana che usa LLM in domini soft (strategia, marketing, HR, advisory) la conseguenza è chiara: senza framework specifico, l'output dell'AI è inferiore in valore informativo a quello di un umano critico anche meno informato.

Se usi LLM come copilot decisionale e vuoi un risultato meno compiacente

Nel mio hub dedicato all'AI per aziende raccolgo articoli sui pattern di mitigation dei rischi LLM in produzione. La sycophancy è uno dei pattern più sottili e meno discussi sul mercato italiano, e il framework Ask-Don't-Tell è la prima leva pratica che porto sul tavolo del cliente decision maker.

Il framework Ask-Don't-Tell in tre tecniche

Tecnica uno: riformulare gli input come domande aperte invece che come affermazioni. Il pattern compromesso è "Pensiamo che il pricing X funzionerà per il prodotto Y, dimmi cosa ne pensi". Il pattern Ask-Don't-Tell è "Quale pricing è ottimale per un prodotto come Y in mercato Z, considerando questi vincoli?". La domanda aperta non offre al modello una premessa su cui scivolare in conferma, e il modello produce ragionamento da zero sulla questione invece di valutazione del proposto. Sul mio test su 5 scenari, questa tecnica da sola riduce la sycophancy del 25-30%.

Tecnica due: presentare i materiali in terza persona o senza attribuzione. Invece di "questo è il mio audit di sicurezza, dimmi se ha problemi", usare "trovo questo audit di sicurezza in un report che ho ricevuto, valuta i problemi metodologici". Il framing terza persona libera il modello dal bias di confermare il decision maker. Sul mio test, questa tecnica produce 30-40% riduzione di sycophancy aggiuntiva sopra la tecnica uno.

Tecnica tre: richiedere esplicitamente pushback critico. Aggiungere al prompt l'istruzione "evidenzia esplicitamente i problemi metodologici e gli errori di ragionamento, non confermare scelte solo perché plausibili". Questa tecnica da sola produce solo 10-15% riduzione, ma in combinazione con le prime due porta il pushback rate del modello su Bullshit Bench da 36% a 78-82%, abbastanza per uso decisionale serio.

Le tre tecniche combinate sono la baseline operativa che applico in tutti i miei prompt critici della pipeline personale di automazione AI, e che porto come deliverable consulenziale strutturato ai clienti che usano LLM in supporto a decisioni reali del proprio business, su domini soft dove la sycophancy strutturale del modello frontier degrada il valore informativo dell'output. Non costituiscono garanzia (il modello può ancora scivolare, soprattutto su domini lontani dal suo training), ma rappresentano il "minimo difensivo" sopra il quale il valore dell'output diventa utilizzabile per decisione.

Tabella comparativa sui principali modelli 2026

Modello	Sycophancy default (5 scenari aziendali)	Pushback Bullshit Bench medico	Reazione a Ask-Don't-Tell
Claude Opus 4.7	media-bassa, conferma soft 40%	~42%	risponde bene, drop a 18% sycophancy
GPT-5.4 Thinking	media, conferma 50%	~36%	drop a 22% sycophancy
Gemini 3.1 Pro Thinking	media-alta, conferma 55%	~33%	drop a 25% sycophancy
Mistral 3 Large	media-alta, conferma 60%	~30%	drop a 30% sycophancy
DeepSeek R3	bassa, conferma 35% (overcompensa critico)	~50%	drop a 14% sycophancy
Grok 4	bassa-media, conferma 45%	~38%	drop a 20% sycophancy

I valori sono approssimativi e basati sul mio piccolo campione di test. Il consulente che vuole numeri robusti per il proprio specifico use case deve fare un proprio benchmark, ma il pattern generale è osservabile: tutti i modelli rispondono bene al framework, alcuni sono nativamente meno sycofantici (DeepSeek R3 ha pattern di overcompensazione critica documentato), altri sono più dipendenti dal framing (Mistral). Per la PMI italiana che usa LLM in supporto decisionale, il pattern operativo è scegliere modello con buon baseline (Claude Opus 4.7 o DeepSeek R3 sono i più solidi sul mio test) e applicare sempre Ask-Don't-Tell sui prompt critici per decisioni aziendali rilevanti.

Tre antipattern aziendali italiani che amplificano la sycophancy

Nei progetti consulenziali del primo semestre 2026 ho osservato tre antipattern di adozione aziendale italiana che amplificano sistematicamente l'effetto sycophancy oltre il baseline strutturale del modello.

Antipattern uno: il "AI committee" della direzione che presenta proposte all'AI come collettive. Pattern tipico: il CEO insieme al CFO e al direttore commerciale formula una strategia in riunione, e poi delega al direttore IT di "chiedere all'AI cosa ne pensa". L'AI riceve la proposta come "noi pensiamo che X funzionerà", la sycophancy massima. Mitigation: lasciare che il prompter prepari i materiali in framing neutro o critico esplicito, evitare pronomi possessivi nella formulazione.

Antipattern due: l'integrazione AI in CRM o BI con preset di prompt che includono dati aziendali e tono affermativo. Pattern tipico: dashboard che alimenta il modello con metriche aziendali e chiede "spiega perché stiamo facendo bene questo trimestre". Il prompt forza la sycophancy strutturalmente. Mitigation: riformulare il prompt in modalità diagnostica ("identifica le anomalie nei dati di questo trimestre"), separare la generazione di insight dalla narrazione di conferma.

Antipattern tre: il manager senior che usa AI per validare decisioni già prese e poi presenta la conferma al board come "validation by AI". È esattamente il pattern di sycophancy weaponizzata, e il consulente serio dovrebbe segnalarlo come red flag culturale che danneggia la qualità decisionale aziendale nel medio termine. Mitigation: separare ruolo di "challenger" dal ruolo di "approver" nel flusso decisionale aziendale, usare AI come challenger esplicito non come approver implicito.

Come misurare la sycophancy del proprio agent in produzione

Un set di metriche operative che applico nei sistemi di monitoring del agent in produzione include quattro indicatori di sycophancy aggregabili. Primo, refusal rate: percentuale di interazioni in cui il modello rifiuta di completare il task. Tipicamente refusal rate troppo basso (sotto il 2%) indica sycophancy alta perché il modello accetta tutto senza pushback strutturale. Secondo, length skew degli output critici vs confermativi: una conversazione in cui il modello concorda è tipicamente più breve di una in cui pushback. Misurare la distribution e identificare anomalie. Terzo, sentiment skew: NLP analysis sul tono delle response, soglia su ratio positivo/negativo. Quarto, framework di test periodico Ask-vs-Tell sul golden set delle proprie decisioni passate, per verificare che il modello continui a rilevare problemi noti.

Sui clienti dei primi mesi del 2026 ho integrato questo monitoring sycophancy nei dashboard di sistema con costo aggiuntivo trascurabile rispetto al monitoring di base. Il dato emergente è che molti agent in produzione hanno sycophancy crescente nel tempo a causa di fine-tuning successivi del provider su dataset preferiti dagli utenti, e questa è una forma di drift che senza monitoring dedicato non è visibile. Il pattern operativo del consulente è inserire la verifica sycophancy come parte del regression testing periodico discusso nel pezzo sul LazyGraphRAG con drift detection.

I dati Osservatorio Politecnico Milano 2026 ricordano che il 71% delle grandi imprese italiane ha avviato almeno un progetto AI ma solo il 9% ha governance strutturata. La sycophancy è esattamente uno di quei rischi che la governance strutturata avrebbe identificato e mitigato prima del deploy, ma che la pipeline shadow del 91% senza governance accumula in silenzio. Per il decision maker italiano che basa scelte aziendali su output AI senza framework di mitigation della sycophancy, il rischio è doppio: decisioni subottimali confermate da AI, e perdita di credibilità interna quando emergerà ai colleghi e ai revisori esterni che le AI usate confermavano sistematicamente i suggerimenti già esistenti senza alcun valore aggiunto critico. Se vuoi una conversazione tecnica per integrare il framework Ask-Don't-Tell nei prompt critici della tua pipeline AI di supporto decisionale, oppure per costruire un sistema di monitoring continuo della sycophancy del tuo agent in produzione, il modulo di preventivo gratuito è il punto da cui inquadrare la richiesta in due minuti, sette domande, prima della prossima decisione strategica per cui chiederai conferma all'AI senza renderti conto del bias che stai introducendo nel processo decisionale.