Vocabolario AI 2026: i concetti tecnici che un decisore IT deve distinguere davvero

Il 28 marzo 2026 ho ricevuto la proposta di un system integrator per un progetto di chatbot RAG destinato a un gestionale B2B italiano. La sezione tecnica della RFP usava fine-tuning, prompt engineering, embedding e agent come se fossero intercambiabili, quantificava i costi in "€ per token" senza distinguere input e output, e prometteva "precisione del 92% su MMLU" come argomento di vendita. Nella mia sandbox di sperimentazione AI ho tenuto per sei mesi un log di tutti i termini usati in modo ambiguo nei preventivi che passano dal mio tavolo: la lista è arrivata a ventotto voci. Questo vocabolario è la distillazione di quel log, pensata per un decisore IT di PMI che vuole leggere una proposta AI senza farsi raccontare favole.

Cosa distingue davvero pretraining, fine-tuning e alignment in un contratto enterprise?

Un large language model moderno attraversa tre fasi di allenamento separate, con costi e scopi radicalmente diversi. Se un fornitore te le confonde, probabilmente ti venderà fine-tuning facendoti pagare pretraining.

Pretraining è la fase in cui la rete impara a predire la parola successiva su un corpus testuale massivo. Llama 3.1 405B è stato addestrato su 15,6 trilioni di token (consulta la Llama 3.1 Model Card). Il costo è nell'ordine delle decine di milioni di dollari di GPU-time e non è mai appannaggio di un fornitore di integrazione: lo fanno i foundation lab.

Supervised fine-tuning prende un modello base e lo specializza su un sottotask (traduzione, classificazione, chat) tramite decine o centinaia di migliaia di coppie input-output curate da umani. Gli ordini di grandezza sono tre o quattro inferiori al pretraining. Qui un fornitore serio può lavorare, ma i numeri devono essere espliciti: quanti esempi, chi li ha annotati, con quali istruzioni, con quale procedura di validazione.

Alignment è la fase che rende il modello utile come assistente conversazionale e allineato a principi di comportamento (in letteratura, i principi HHH: helpful, honest, harmless). RLHF, DPO, Constitutional AI, RLAIF sono tutte tecniche di alignment, non di fine-tuning classico: il loro obiettivo non è insegnare un task nuovo ma indirizzare le preferenze del modello. Un decisore dovrebbe chiedersi: il mio progetto richiede alignment personalizzato? Nella grande maggioranza dei casi per PMI la risposta è no.

Quali parametri architetturali contano davvero quando scegli un modello?

Parametri (B, T). Il numero di pesi interni della rete neurale. GPT-4 è storicamente stimato intorno a 1,76T di parametri totali, Llama 3.1 405B a 405B, Mistral Small 3.1 a 24B. Più parametri significa in genere più capacità assoluta ma non linearmente: un 24B ben allenato batte un 70B mediocre su molti task. Chiedi sempre se il numero dichiarato è total o active (vedi Mixture of Experts sotto).

Mixture of Experts (MoE). Un'architettura in cui solo una frazione dei parametri si attiva a ogni token. DeepSeek V3 ha 671B di parametri totali ma ne attiva circa 37B per token; Mistral Large 3 ha 675B totali e 41B attivi (rif. Mistral News). Il costo di inferenza scala con i parametri attivi, non con quelli totali: ecco perché DeepSeek ha potuto offrire prezzi molto aggressivi. Se un vendor ti quota un modello "400B" senza dirti l'architettura, chiedi: total o active?

Finestra di contesto. Quanto testo il modello può processare in un singolo prompt. Claude Opus 4.7 standard ha 200k token, con opzione 1M in contesti specifici; Gemini 3.1 Pro ha 1M standard. Non è un superpotere gratuito: la latenza cresce quadraticamente con il contesto, e in pipeline di produzione con prompt di 500k token il tempo di prima risposta può superare i 40 secondi.

Tokenizer. Il pezzo di software che spezza il testo in token prima di darlo al modello. Cambia fra vendor e fra versioni dello stesso vendor. Il tokenizer di Claude Opus 4.7 produce mediamente il 35% di token in più rispetto a quello di 4.6 per lo stesso testo italiano, come ho misurato e raccontato nel mio articolo sull'aumento della bolletta API. Se il contratto fissa il prezzo "per milione di token" senza specificare il tokenizer, il fornitore può cambiartelo sotto i piedi.

Se vuoi approfondire come scelgo i modelli per progetti di produzione senza vendor lock-in, nel mio hub dedicato all'AI per aziende trovo articoli tecnici con metodologia, benchmark interni e perimetro dichiarato.

Quantization, distillation, compressione: cosa cambia davvero per l'infrastruttura?

Quantization. Riduce la precisione numerica dei parametri. Un modello in FP16 usa 2 byte per parametro, in INT8 uno solo, in INT4 mezzo. Un Llama 3 70B in Q4_K_M gira a 40 GB di RAM utilizzabile, un Q8_0 a 75 GB. La perdita di accuracy è di solito sotto il 2% sui benchmark standard, ma sale rapidamente su task specialistici (matematica, codice). Vale per inference self-hosted; sulle API managed non hai controllo sulla quantization usata dal vendor.

Distillation. Un modello piccolo (student) viene allenato sulle risposte di un modello grande (teacher) per ereditarne le capacità su un task specifico. I modelli distill della serie DeepSeek R1 (1.5B, 7B, 8B, 14B, 32B, 70B) sono esattamente questo: base Qwen o Llama ri-allenati sulle risposte del modello full DeepSeek R1 671B. La distillation è lo strumento principe per portare capacità avanzate su hardware locale. Non va confusa con quantization: la prima cambia il modello stesso, la seconda solo la rappresentazione numerica dei suoi pesi.

Compression. Termine ombrello che include quantization, distillation, pruning (rimozione di pesi con basso impatto), low-rank adaptation. Un fornitore che usa "compression" come sinonimo di quantization è approssimativo; uno che lo usa come sinonimo di distillation sta confondendo due tecniche con costi di sviluppo molto diversi.

Prompt, in-context learning, RAG, agent: dove passa il confine?

Prompt. Il testo che passi al modello in input. Chiarezza concettuale: il system prompt è diverso dal user prompt. Il primo imposta comportamento e permessi, il secondo è la richiesta dell'utente. Mescolarli è uno dei vettori di prompt injection più comuni, documentato come LLM01 nell'OWASP Top 10 for LLM Applications 2025.

In-context learning. La capacità del modello di imparare un task dagli esempi messi nel prompt, senza aggiornare i pesi. Zero-shot (nessun esempio), one-shot (un esempio), few-shot (pochi esempi). È gratis dal punto di vista del training ma costa in token a ogni chiamata, quindi ha un prezzo variabile che scala con il traffico.

Retrieval-Augmented Generation (RAG). Un'architettura che recupera documenti rilevanti dalla tua knowledge base prima di passare la domanda al modello. Non è un tipo di modello, è un pattern di integrazione. Non richiede fine-tuning. Un fornitore che confonde RAG con fine-tuning sta probabilmente venderti molta più complessità del necessario.

Agent. Un LLM dotato di tool (funzioni esterne) che può scegliere se e quando invocare durante la generazione. La differenza fra un chatbot e un agent non è architetturale nel modello, è nel perimetro: l'agent ha la capacità di impattare il mondo (inviare email, scrivere su database, invocare API di pagamento). La Excessive Agency è voce LLM06 OWASP, una delle categorie di rischio più pesanti negli audit 2025-2026.

Tool use. Il meccanismo con cui l'agent chiama i tool. Anthropic ha formalizzato il protocollo con Model Context Protocol (MCP), diventato uno standard de facto nel 2025; il mio articolo su MCP stateless e SEP-1442 copre la migrazione in corso.

Come distinguere benchmark seri, benchmark marketing e chatbot Arena?

MMLU. Massive Multitask Language Understanding, 57 materie, domande a scelta multipla. È uno dei benchmark più citati ma soffre di data leaking importante: molti modelli frontier sono stati ripetutamente addestrati su dati che lo contengono, rendendo il punteggio gonfiato. Tra l'altro non è comparabile fra versioni diverse della stessa metrica: MMLU 5-shot (cinque esempi nel prompt) non è comparabile con MMLU 25-shot (venticinque esempi).

GPQA, HumanEval, GSM8K, DROP. Benchmark specifici per ragionamento graduate-level, programmazione, matematica elementare, comprensione testuale. Ciascuno misura una cosa diversa; un modello può eccellere su HumanEval e crollare su GSM8K.

Chatbot Arena (LMArena). Sistema di valutazione con preferenze utente reali su prompt liberi, classifica con rating Elo come negli scacchi. Più realistico dei benchmark chiusi ma meno controllato, quindi più facile da giocare per vendor che nascondono il modello dietro un nome finto. Sito ufficiale: lmarena.ai.

Data leaking. Il test set finisce nei dati di training, volontariamente o per contaminazione. Invalida tutti i numeri. Come verificarlo: chiedi al fornitore se il suo modello è stato valutato su un held-out test set costruito dopo il knowledge cutoff del modello. Se non sa rispondere, il claim di accuracy non vale nulla.

Pass@k. Numero di tentativi concessi al modello per considerare una risposta come corretta (almeno uno deve essere giusto). Un pass@1 (un solo tentativo) è molto diverso da un pass@64 (64 tentativi): il secondo gonfia il risultato in modo enorme. Se non è dichiarato, assume pass@1.

Safety, misalignment, reward hacking: cosa deve essere nel capitolato?

Safety card. Documento pubblicato dal vendor per ogni release che descrive i test di rischio applicati (cybersecurity, CBRN, persuasione, autonomia). La system card di Claude Opus 4.7 e le OpenAI system cards sono esempi di riferimento. Chiedere al fornitore quale livello di rischio post-mitigation è dichiarato nel modello che ti sta proponendo non è paranoia: è due diligence elementare.

Misalignment. Il modello non segue i principi per cui è stato allineato. Non si confonde con allucinazione: un modello allucinato dice cose false credendole vere, un modello disallineato dice o fa cose che sa non dovrebbe dire o fare.

Reward hacking e specification gaming. Il modello massimizza la metrica di reward in modo non intenzionale. Classico: un agent a cui chiedi "aumenta la velocità del codice" che modifica la funzione di misurazione del tempo invece del codice stesso.

Prompt injection. Istruzioni malevole iniettate nell'input che manipolano il comportamento del modello. Direct se inserite direttamente dall'attaccante, indirect se nascoste in contenuti esterni che l'LLM processa. OWASP ammette esplicitamente: "it is unclear if there are fool-proof methods of prevention".

Lethal trifecta. Pattern a tre gambe che rende catastrofica una compromissione agentic: accesso a dati sensibili, tool pericolosi (email, pagamenti, scrittura DB), esposizione a input non fidati (documenti, email, web). Rompere una delle tre gambe mitiga lo scenario peggiore.

Context window nominale vs effettivo: la distinzione che nessuno mette nel preventivo

Il marketing parla di "contesto da un milione di token" come se fosse un attributo monolitico. Nella realtà operativa ci sono almeno tre concetti diversi.

Context window nominale è il massimo dichiarato dal vendor, quello che trovi nella pricing page.

Context window effettivo è la frazione di contesto su cui il modello mantiene performance decenti di recall e reasoning. Il fenomeno del lost in the middle (paper Liu et al. 2023, verificato ripetutamente su modelli frontier 2024-2026) mostra che i token in posizione centrale sono sistematicamente meno utilizzati dal meccanismo di attention. Un modello 1M nominale può comportarsi come 200k effettivi su task di retrieval non banali.

Usable context è ciò che ti resta dopo aver sottratto system prompt, tool descriptions, conversation history, RAG chunks. Un agent con 50 tool MCP registrati può bruciare 20k token solo nel prompt di registrazione, come ho raccontato nell'articolo su Tool Search Tool e Programmatic Tool Calling. Il contesto nominale è il cofano dell'auto, l'usable è quello che resta per il bagaglio dopo aver caricato la ruota di scorta.

Edge case e trappole contrattuali che trovo più spesso

Nella mia pipeline personale di automazione AI tengo una lista di vendor lock-in travestiti da promesse tecniche. Qui cinque trappole ricorrenti.

Modelli "proprietari" presentati come alternativa alle API managed. Quasi sempre sono fine-tuning sottili di Llama o Mistral open-weight. Chiedi il modello base e il dataset di fine-tuning.
Pricing "per token" senza specificare input/output e tokenizer. Claude e GPT fatturano input e output a prezzi diversi (spesso 4-5x). Un preventivo che dà un solo prezzo è vago di default.
"100% on-premise" con modello open-weight ma orchestrazione su cloud del vendor. L'inferenza gira on-prem ma tutti i prompt e le risposte passano per l'aggregator del fornitore. Non è GDPR compliant senza un DPA esplicito.
"Fine-tuning sui tuoi dati" quando quello che servirebbe davvero è un RAG. Fine-tuning è irreversibile e crea una dipendenza dal fornitore; RAG lascia i dati sotto tuo controllo.
Benchmark senza link al dataset. Se non ti dice "MMLU, 5-shot, held-out, dati Q3 2025", è marketing.

Il vocabolario non è esaustivo ma copre le distinzioni che nel 2026 fanno la differenza fra un preventivo leggibile e un preventivo in cui ogni voce è negoziabile in chiave sfavorevole. Se hai un progetto AI in fase di valutazione e vuoi capire se il perimetro tecnico del fornitore regge a un confronto serio, il modulo di preventivo gratuito ti risponde in due minuti se il caso rientra nel mio ambito, oppure ti indirizza a figure più adatte. Distinguere pretraining da alignment, MoE total da MoE active, benchmark k-shot da quelli contaminati è il minimo per trattare con un fornitore senza farsi raccontare storie: il massimo è capire quale combinazione di questi concetti risolve davvero il tuo problema di business, e quale invece è complessità inutile pagata a caro prezzo.