AA Omniscience e il confronto sulle allucinazioni: quale modello sa dire "non lo so" nel 2026

A novembre 2025 Artificial Analysis ha rilasciato un benchmark che ha messo le big AI in un imbarazzo che non si erano cercate: AA-Omniscience, presentato in arXiv 2511.13029 e online su artificialanalysis.ai/evaluations/omniscience. La domanda misurata è semplice ma scomoda: quando il modello non sa una cosa, inventa o dice "non lo so"? Su 6.000 domande in 42 argomenti distribuiti in 6 domini (Business, Health, Law, Software Engineering, Humanities & Social Sciences, Science/Engineering/Math), il sistema di scoring assegna punti per risposta corretta, sottrae punti per risposta sbagliata, lascia neutro l'astensione. Risultato netto: su 36 frontier model valutati al rilascio, solo tre hanno ottenuto un Omniscience Index sopra zero. Claude Opus 4.1 con 4,8 punti, seguito da GPT-5.1 e Grok 4. Tutti gli altri preferiscono inventare risposte plausibili invece di ammettere di non sapere, e il loro Index resta negativo o vicino allo zero.

Sul mio Hetzner CCX33 (8 vCPU AMD EPYC 9454P, 32 GB RAM DDR5) ho replicato il pattern su un sottoinsieme di 50 domande tratte dal dataset pubblico AA-Omniscience-Public (10% del totale, HuggingFace) usando come backbone i modelli che ho a disposizione via API: Claude Opus 4.7, GPT-5.4 Thinking, Gemini 3.1 Pro Thinking, Mistral 3 Large, Grok 4. Il pattern di Artificial Analysis si è confermato anche sul mio campione ridotto: Claude tende ad astenersi quando incerto, mentre GPT e Gemini producono risposte plausibili che a volte sono accurate e a volte completamente inventate. La differenza non è cosmetica: per un'integrazione aziendale che deve passare un audit del Garante o un controllo interno, un modello che ammette i propri limiti è infinitamente più gestibile di uno che produce sicurezza fittizia.

Cos'è davvero AA Omniscience e perché un benchmark sull'astensione è una rivoluzione metodologica

Per oltre tre anni i benchmark dominanti dell'industria AI (MMLU, GPQA Diamond, HumanEval, GSM8K) hanno misurato un'unica cosa: la percentuale di risposte corrette. Niente penalità per la risposta sbagliata, niente premio per l'astensione. Questo design incentiva un comportamento di overconfidence durante il post-training: i modelli imparano a "tirare a indovinare" perché statisticamente è la strategia ottimale rispetto a quel reward. Il problema è che nel mondo reale tirare a indovinare su una domanda di diritto societario o su un dosaggio medico ha costi asimmetrici brutali rispetto al silenzio onesto.

AA-Omniscience inverte il design. Il prompt è esplicito al modello: "If you do not know the answer, or you need more context or tools to answer the question, be clear about this. It is better that you say this than get the wrong answer". Lo scoring premia chi rispetta questa indicazione: le risposte corrette danno punti, le risposte sbagliate sottraggono punti, le astensioni restano neutre. Un modello che astenesse sistematicamente avrebbe Omniscience Index zero, lo stesso di un modello che alterna 50/50 risposte corrette e sbagliate. Solo i modelli che ottengono molto più giusto che sbagliato spostano il punteggio in positivo. Su 36 modelli frontier valutati al rilascio, esattamente tre ce l'hanno fatto. Tradotto in linguaggio prosaico: il 91,7% dei frontier model 2025 inventa risposte sui temi che non conosce abbastanza spesso da uguagliare le risposte corrette. È un dato che cambia radicalmente come dovremmo parlare di "intelligence" dei modelli.

Il punto metodologico fondamentale è la decorrelazione fra l'AA Intelligence Index (general capability) e l'Omniscience Index. Un modello può essere altissimo sul primo (capacità generale di problem solving) e molto basso sul secondo (calibrazione della propria conoscenza). Sul primo asse GPT-5 high vince spesso; sul secondo asse perde contro Claude Opus 4.1. Sono due dimensioni diverse di qualità, e il consulente serio deve sapere quale gli serve per il task del cliente. Per un assistente di customer support che risponde a domande su prodotti aziendali, l'Omniscience Index conta più dell'Intelligence Index: meglio un assistente che dice "non ho questa informazione, contatta XYZ" piuttosto che inventare un dettaglio plausibile ma sbagliato. Per un copilot creativo che genera bozze di marketing, l'Intelligence Index è più rilevante.

Se vuoi mappare quale modello fa al caso del tuo task aziendale

Nel mio hub dedicato all'AI per aziende raccolgo articoli che mostrano come scelgo i modelli per le pipeline che porto in produzione. La scelta del modello frontier non è mai un atto unico: è una matrice di trade-off fra Intelligence, Omniscience, costo, latency, data sovereignty. Pensare in modo monodimensionale qui è la prima causa di pipeline che funzionano in demo e crollano al primo audit serio.

Tabella comparativa: i numeri reali del rilascio

I numeri seguenti sono estratti dal report Artificial Analysis al rilascio del benchmark e dalle versioni successive del leaderboard pubblico. Vanno letti tenendo presente la natura di benchmark statico: i modelli si aggiornano, e il dato sotto è un fotogramma novembre-dicembre 2025 che il consulente serio aggiorna prima di proporre la scelta finale al cliente.

Modello	Omniscience Index	Hallucination rate	Accuracy raw	Note
Claude 4.1 Opus	4.8	basso	medio-alto	leadership da bassa hallucination, non da accuracy massima
GPT-5.1	sopra zero	medio-alto	alto	accuracy alta che traina l'Index nonostante hallucination > Claude
Grok 4	sopra zero	medio-alto	alto	simile a GPT-5.1, leadership da accuracy
Gemini 2.5 Pro	sotto zero	alto (~3x Claude 4.5 Haiku)	alto	hallucination compromette OI nonostante accuracy alta
Claude 4.5 Haiku	non in top OI	28% (più basso del mercato)	medio	smaller model con calibrazione eccellente
GPT-5 (high)	sotto zero	~3x Claude 4.5 Haiku	alto	trade-off tipico OpenAI: accuracy alta, calibrazione debole
Mistral Large 3	sotto zero	medio	medio	non in top 3 OI ma accettabile per task verificabili
Modelli sotto 4B parametri	tipicamente sotto zero	variabile	basso	non adatti a task knowledge-intensive aziendali

L'osservazione più contro-intuitiva del benchmark è che modelli più piccoli a volte battono modelli grossi sull'Omniscience Index, perché i piccoli sanno meno, ma sanno cosa non sanno. Un modello da 4B parametri con buona calibrazione su un dominio specifico può performare meglio di un modello 200B+ su Omniscience perché si astiene quando l'altro inventa. Per le PMI italiane con budget AI limitato è un'apertura non ovvia: il modello frontier giusto per un caso d'uso aziendale può essere il modello più piccolo della categoria, non quello più grande.

Perché GPT e Gemini allucinano sistematicamente più di Claude

La risposta non è di mistero: è di design del reward durante il post-training. Anthropic ha investito esplicitamente in tecniche di calibrazione e training della constitution che premia l'astensione e penalizza l'overconfidence, come ho discusso nell'articolo sul confronto delle roadmap AGI di Amodei e Hassabis. OpenAI e Google hanno ottimizzato per Intelligence Index pubblico, dove tirare a indovinare aiuta a scalare la classifica. Sono due scelte strategiche diverse che producono modelli diversi, ognuno meglio adattato a casi d'uso diversi.

Il pattern è quello che ho descritto in modo verticale nelle cinque famiglie di compiti che non vanno date a un LLM diretto: il modello che inventa la citazione legale, il modello che produce un numero plausibile su un calcolo che non sa fare, il modello che dichiara di sapere qualcosa che non conosce. Per pipeline aziendali con esposizione audit (legali, sanitari, finanziari, regolatori) la calibrazione di Claude è oggi un asset competitivo concreto rispetto agli altri frontier. Per pipeline creative o coding agent senior dove l'intelligenza generale conta più della calibrazione, la scelta resta più aperta.

Cosa misura il dato di hallucination rate al di là del leaderboard

Il numero "Claude 4.5 Haiku ha hallucination rate del 28%" è la summary statistic più citata del benchmark, ma capire cosa significa nel concreto è prerequisito per usarla bene. Hallucination rate in AA-Omniscience è la frazione di domande in cui il modello produce una risposta sbagliata invece di astenersi, calcolata sull'intero set di 6.000 domande. Una hallucination rate del 28% non significa che il 28% delle risposte del modello sono sbagliate in produzione: significa che su domande appositamente costruite per sondare lacune di conoscenza, il modello sceglie di inventare il 28% delle volte invece di astenersi. Per un'integrazione aziendale che lavora prevalentemente su domini coperti dal training, la hallucination rate effettiva osservata è tipicamente molto inferiore al numero benchmark, ma il rapporto fra modelli si conserva.

Per chi vuole replicare il pattern sul proprio dominio specifico, AA-Omniscience-Public è un buon kick-start: 600 domande pubbliche su HuggingFace, sufficienti a un benchmark indicativo a livello aggregato, non sufficienti a un benchmark per singolo dominio (il sotto-campionamento per i 42 topic produce ridotta significatività statistica). Il pattern operativo è: prendi le 600 domande, le esegui sui 3-5 modelli candidati con la stessa prompt strategy, calcoli accuracy / hallucination / abstention per ciascuno, decidi quali due-tre modelli portare al passo successivo (test set proprio del dominio). Il costo di questo screening è 30-60 dollari per modello, totale 150-300 dollari per il primo filtraggio. È un decimo dei costi tipici di una settimana di consulting tradizionale, e produce dati utilizzabili nella conversazione successiva con il fornitore.

Implicazioni operative per la pipeline aziendale italiana

Il primo passo che faccio in un kick-off di consulenza AI è chiedere al cliente: "quanto ti costa una risposta sbagliata e plausibile rispetto a una astensione esplicita del sistema?". Per un chatbot interno di supporto onboarding, una risposta sbagliata costa poco (l'utente capisce e chiede al collega). Per un agente che risponde a clienti finali su garanzia di prodotto, una risposta sbagliata costa una pratica legale. Per un copilot legale, una risposta sbagliata costa una sanzione disciplinare. Il rapporto fra costo della risposta sbagliata e costo dell'astensione esplicita è la prima variabile che determina quale modello pesa di più in tabella: alta asimmetria → Claude per Omniscience; bassa asimmetria → GPT/Gemini accettabile.

Il secondo passo è chiedere quale dei sei domini AA-Omniscience copre il caso d'uso. Le performance per dominio sono altamente non uniformi: nessun modello domina tutti i sei, alcuni sono molto forti su Software Engineering ma deboli su Law, viceversa. Il Public dataset (600 domande, 10% del totale) è un buon punto di partenza per benchmark mirato, ma per task production-critical vale la pena costruire un test set proprio del dominio specifico, valido nel tempo, da rieseguire ogni 60 giorni come golden regression test (lo stesso pattern di drift detection che ho descritto nel pezzo sul LazyGraphRAG e cost observability).

Il terzo passo è il routing dinamico. In molte pipeline aziendali serie del 2026 la scelta del modello non è statica: l'orchestratore valuta la query, sceglie il modello con il miglior trade-off per quella query class, instrada. Per le query knowledge-intensive in domini regolati, instrado a Claude. Per le query creative o di codifica complessa, a GPT-5 o Opus 4.7. Per le query bulk con tolleranza maggiore all'errore, a un modello smaller più economico. Il pattern non è tecnologicamente difficile da implementare, ma richiede di smettere di pensare in termini di "qual è il modello migliore" e iniziare a pensare "qual è il modello migliore per questa query class". È il deliverable di engineering che separa una pipeline AI demo da una di produzione, e il dato AA-Omniscience è uno degli input più importanti per costruirla.

C'è un effetto di mercato che vale la pena anticipare: man mano che AA-Omniscience entra come uno dei dieci benchmark dell'AA Intelligence Index v4.0, i lab AI saranno costretti a cercare di vincere anche su quel ranking, e probabilmente vedremo nei prossimi 6-12 mesi modelli che migliorano l'OI tramite training mirato all'astensione. È un buono sviluppo per il mercato perché allinea gli incentivi dei lab con quelli degli utenti enterprise, ma significa anche che la fotografia di novembre 2025 invecchierà rapidamente. Mantenere la matrice di trade-off aggiornata su base trimestrale è prerequisito per scelte solide di stack; l'analisi di un anno fa è dato storico, non guida operativa.

Per le PMI italiane che stanno scegliendo oggi il proprio stack AI, il messaggio è netto: chiedi al fornitore i dati di hallucination rate sul tuo dominio, non solo il leaderboard generale di Intelligence Index. Se il fornitore non te li sa portare, oppure ti propone solo metriche che non distinguono fra accuracy raw e calibrazione, sta vendendo un modello senza misurazione del comportamento reale che ti interessa, e la fattura del primo incident di produzione dimostrerà la differenza. Se vuoi una conversazione tecnica per impostare la matrice di trade-off sui modelli per la tua pipeline specifica, considerando dominio, costo, hallucination rate e regime di audit applicabile, il modulo di preventivo gratuito è il punto da cui inquadrare la richiesta in due minuti, sette domande.