RLHF, Constitutional AI, DPO e RLAIF: quattro tecniche di allineamento LLM a confronto
L'11 marzo 2026 un CTO di una software house veneta mi ha chiesto perché il suo chatbot basato su Claude Sonnet 4.6 si rifiuti di rispondere a una categoria specifica di domande nonostante le istruzioni esplicite di sistema. La risposta breve è stata: perché l'alignment del modello non è un livello configurabile, è una proprietà interna distillata nei pesi durante una fase specifica di training. La risposta lunga richiede di capire come RLHF, Constitutional AI, DPO e RLAIF differiscono nei meccanismi, nei costi, nei bias che ereditano dagli annotatori e nei comportamenti anomali che introducono in produzione. Qui il confronto operativo fra le quattro tecniche, con le fonti primarie e le implicazioni pratiche per chi integra LLM in pipeline enterprise italiane.
Di cosa parliamo quando parliamo di alignment?
L'alignment è la fase di training in cui il modello viene indirizzato a rispondere in modo coerente con un insieme di principi (tipicamente i principi HHH: helpful, honest, harmless). Arriva dopo il pretraining (apprende il linguaggio) e dopo il supervised fine-tuning (apprende a seguire istruzioni e a dialogare). Senza alignment un LLM addestrato sul web generale è uno strumento statistico tecnicamente corretto ma socialmente inutilizzabile: risponde alla domanda più probabile, non a quella più utile, onesta o innocua.
Il problema tecnico è come codificare algoritmicamente preferenze umane su risposte per cui non esiste una risposta "giusta" univoca. Tutte le tecniche che esaminiamo risolvono questo problema in modo diverso, con conseguenze operative diverse.
RLHF: il paradigma canonico di InstructGPT
Reinforcement Learning from Human Feedback è la tecnica introdotta nel paper Training language models to follow instructions with human feedback di Ouyang et al., OpenAI, marzo 2022. È il backbone di ChatGPT e, in varianti, della maggior parte dei modelli commerciali 2022-2024.
Tre step. Primo: supervised fine-tuning su ~13.000 prompt con risposte scritte da annotatori umani. Secondo: training di un reward model su ~33.000 prompt con ranking di risposte da parte di annotatori (per ogni prompt, k risposte generate dal modello, ordinate per preferenza umana). Terzo: ottimizzazione via Proximal Policy Optimization (PPO) del modello contro il reward model, con un termine di regolarizzazione KL per non allontanarsi troppo dalla policy di partenza.
Il risultato principale del paper è quantitativo: InstructGPT 1,3B è preferito a GPT-3 175B dagli annotatori umani, con 100x meno parametri. La morale: l'alignment è più efficace dell'aumento di scala. RLHF è diventato standard di industria, con varianti (PPO vs DPO, on-policy vs off-policy, con o senza regularization pretraining) che cambiano dettagli ma mantengono la struttura a tre step.
Costi e limiti. Il vincolo principale è l'annotatore umano: scalare oltre qualche decina di migliaia di comparazioni è costoso e soggetto a bias geografici. Il paper RLAIF vs. RLHF di Lee et al. 2023 stima che l'annotazione umana è >10x più costosa di quella AI. Inoltre, gli annotatori introducono bias stilistici: la sovrarappresentazione della parola "delve" nei modelli 2023-2024 è stata tracciata al fatto che molti annotatori erano nigeriani, dove "delve" è comune nell'inglese corrente.
Constitutional AI: l'approccio Anthropic con principi espliciti
Constitutional AI, introdotto nel paper Constitutional AI: Harmlessness from AI Feedback di Bai et al. Anthropic, dicembre 2022, sostituisce la parte di human feedback con un meccanismo di self-critique basato su una lista di principi esplicita ("la costituzione"). Anthropic usa circa dieci principi in natural language derivati dalla Dichiarazione Universale dei Diritti Umani, adattati e iterati.
Due fasi. Supervised Learning (SL): il modello genera una risposta, se stessa la critica contro un principio sampleato dalla costituzione, produce una revisione, e il modello viene fine-tuned sulle revisioni. Reinforcement Learning (RL): il modello genera coppie di risposte, un altro modello (lo stesso Claude in una variante più stabile) le valuta contro i principi, si allena un preference model che diventa il reward signal per RL. Questa seconda fase è chiamata RLAIF (Reinforcement Learning from AI Feedback) dagli stessi autori, prima che RLAIF diventasse un campo separato.
Il vantaggio editoriale è che i principi sono scrivibili, auditabili, modificabili. Il vantaggio operativo è che scala senza richiedere annotatori umani. Il prezzo è che la qualità dell'alignment dipende dalla qualità del modello judge; se il judge è biased, il bias si propaga.
Se vuoi approfondire come scelgo le tecniche di alignment quando valuto modelli per progetti AI enterprise, nel mio hub dedicato allo sviluppo AI per aziende trovo articoli tecnici con metodologia applicata e perimetro dichiarato.
DPO: eliminare il reward model con una riformulazione matematica
Direct Preference Optimization, paper Direct Preference Optimization: Your Language Model is Secretly a Reward Model di Rafailov et al. NeurIPS 2023, è una semplificazione elegante di RLHF. L'insight è che la relazione tra reward function e optimal policy ammette una soluzione chiusa: si può ottimizzare direttamente la policy sui dati di preferenze, saltando la fase di training del reward model e la fase di PPO.
Un solo step di policy training sostituisce i tre step di RLHF. La loss è una cross-entropy tra coppie preferred/rejected, pesata dinamicamente per evitare degenerazioni. DPO è stabile, computazionalmente leggero, non richiede sampling del modello durante il fine-tuning, e nel paper matcha o supera PPO-RLHF su sentiment modulation, summarization, e single-turn dialogue fino a 6B di parametri.
Nella pratica 2024-2026 DPO è diventato lo standard de facto per le community open-weight (Llama, Mistral, Qwen). I vendor commerciali usano varianti ibride (IPO, KTO, ORPO) che derivano tutte da DPO. Il limite è che richiede comunque un dataset di preferenze di qualità: DPO non risolve il problema degli annotatori, solo il problema dell'architettura di training.
RLAIF come famiglia: scalare oltre il limite umano
RLAIF nelle sue varianti (dallo scoping originale di Constitutional AI al paper RLAIF vs. RLHF di Lee et al. 2023) mette un LLM come labeler al posto dell'annotatore umano. Lee et al. hanno dimostrato che, su summarization, helpful dialogue e harmless dialogue, RLAIF raggiunge performance comparabili a RLHF; gli umani preferiscono RLAIF e RLHF allo stesso tasso (circa 50/50).
La variante d-RLAIF (direct-RLAIF) va oltre: elimina anche il training del reward model, usando direttamente l'LLM labeler come reward source durante il loop RL. Performance superiori alla RLAIF canonica nei loro esperimenti.
Il costo è >10x più basso di RLHF (stima del paper). Il rischio, che il paper ammette, è il problema circolare: se il labeler è un LLM con i suoi bias, il modello allenato eredita quei bias e li amplifica in domini dove il labeler sbaglia sistematicamente.
Tabella comparativa: quattro tecniche a confronto operativo
| Tecnica | Paper primario | Step di training | Richiede reward model? | Richiede umani? | Costo relativo | Scalabilità |
|---|---|---|---|---|---|---|
| RLHF (InstructGPT) | Ouyang 2022 | 3 (SFT + RM + PPO) | Sì | Sì (migliaia di comparazioni) | Alto | Limitata dall'annotazione |
| Constitutional AI | Bai 2022 | 2 (SL critica/revisione + RLAIF) | Sì (preference model) | No (dopo definizione principi) | Medio | Alta |
| DPO | Rafailov 2023 | 1 (policy training diretto) | No | Sì (per dataset preferenze) | Basso | Media |
| RLAIF canonico | Lee 2023 | 3 (SFT + RM da AI + PPO) | Sì | No | Basso | Alta |
| d-RLAIF | Lee 2023 | 2 (SFT + RL diretto da AI) | No | No | Molto basso | Molto alta |
Quale tecnica stanno usando davvero i vendor nel 2026?
OpenAI usa variante proprietaria di RLHF (con raffinamenti non pubblicati); la system card di GPT-5 cita RLHF sia nella parte di helpfulness sia nella parte di safety, senza esporre dettagli.
Anthropic usa Constitutional AI come framework primario, con evoluzioni nei modelli più recenti. La Claude 4 system card documenta l'uso di costituzioni multi-principio e di RLAIF su specifici sottocasi.
Google DeepMind usa varianti miste su Gemini (dettagli non pubblici); il paper RLAIF stesso è stato prodotto da Google.
Mistral, Llama, Qwen usano nella maggior parte dei casi DPO o varianti (IPO, ORPO) nella fase di alignment post-SFT. DeepSeek V3 e R1 hanno pubblicato varianti proprie di RL che combinano DPO con loss custom.
Per una PMI italiana che integra modelli commerciali la scelta della tecnica non è diretta: paghi il modello come servizio, l'alignment è un attributo interno. La rilevanza operativa è diagnostica: se un modello rifiuta categorie di richieste legittime (effetto sycophancy negativa) o accetta categorie pericolose (effetto sandbagging), capire quale tecnica è stata usata aiuta a progettare la pipeline di validazione.
Cosa cambia per i modelli open-weight che hai sul tuo stack self-hosted
Se gestisci Ollama su Hetzner, vLLM, o deploy Mistral/Llama/Qwen on-prem (tema che approfondisco in Mistral 3 MoE on-prem EU vs Claude API), eredita le tecniche di alignment del modello base. Quando scarichi Llama 3.3 70B Instruct stai scaricando i pesi dopo il loro alignment RLHF/DPO; non hai controllo su come è stato fatto, solo sul comportamento finale.
Questo ha due implicazioni pratiche. Primo: due modelli "70B" con lo stesso pretraining possono comportarsi in modo drasticamente diverso perché sono stati allineati con procedure diverse. DeepSeek R1 Distill Llama 70B e Llama 3.3 70B Instruct hanno base comune ma comportamento diverso perché il loro post-training diverge. Secondo: il fine-tuning che puoi fare tu su base di Llama senza un pipeline RLHF sofisticata è limitato al supervised fine-tuning; non puoi facilmente "rialineare" il modello senza un reward model dedicato, che richiede risorse fuori portata PMI.
Per una PMI che self-hosta, l'approccio corretto è: scegli un modello il cui alignment di default è accettabile per il tuo dominio, e costruisci una pipeline di safety esterna (filtering input, validation output, logging audit-trail, kill switch) che non si appoggia all'alignment del modello ma lo integra.
Edge case e modi in cui ciascuna tecnica fallisce
RLHF: bias stilistico sistematico. Gli annotatori hanno stili culturali specifici. I modelli RLHF 2023-2024 producono risposte spesso ridondanti, polite, con bullet list eccessive. È il risultato di annotatori che premiavano risposte "formattate bene" senza penalizzare la ridondanza.
Constitutional AI: rifiuto eccessivo. Se i principi sono troppo stringenti o mal calibrati, il modello diventa iper-cauto. Anthropic ha dovuto iterare parecchio sui principi di Claude per evitare che rifiutasse richieste legittime (il cosiddetto over-refusal, documentato nelle system card successive).
DPO: collasso della diversità. DPO ottimizza aggressivamente per massimizzare la differenza tra preferred e rejected, il che può collassare la diversità delle risposte. Modelli DPO-tuned producono spesso risposte molto simili tra loro, perdendo creatività esplorativa.
RLAIF: amplificazione dei bias del judge. Se il labeler AI ha un bias sistematico (es. preferisce risposte lunghe), il modello RLAIF impara a generare risposte lunghe anche quando corta sarebbe meglio. La sycophancy emerge spesso da questo ciclo.
Implicazioni per la tua pipeline LLM aziendale
Quattro indicazioni operative che seguo quando progetto sistemi che integrano LLM commerciali.
- Non promettere al cliente che puoi "riallenare" il modello sui suoi valori se stai usando API managed. Non puoi. Puoi influenzare il comportamento via system prompt e few-shot, ma l'alignment è congelato. Sostenere il contrario è ingannevole.
- Testa sistematicamente il modello su casi di rifiuto eccessivo e accettazione eccessiva. Un held-out di edge case (richieste legittime al limite, richieste subdole al limite) ti dice dove il modello ti tradirà in produzione.
- Segui le system card. Anthropic, OpenAI e Google pubblicano documenti dettagliati con le categorie di safety testing applicate. Ignorarli è una mancanza di due diligence.
- Fine-tuning proprietario è raramente la risposta. Per cambiare il comportamento di alignment in modo serio servirebbe RLHF o DPO con dataset curato, capability che la maggior parte delle PMI non ha. Il pattern corretto è system prompt + validation layer esterno.
Capire le quattro tecniche di alignment non è teoria accademica da consulente evangelista: è la base per diagnosticare perché il modello che hai scelto si comporta in un certo modo, per valutare se un fornitore che ti propone "alignment personalizzato" sa di cosa parla, per progettare una pipeline di validazione che non si fida ciecamente del modello. Se hai un progetto LLM in cui il comportamento del modello su categorie di richieste specifiche è un punto critico e vuoi capire se l'architettura proposta dal tuo fornitore regge al confronto con le tecniche 2026, il modulo di preventivo gratuito ti risponde in due minuti se il caso rientra nel mio ambito. Alignment non è un pulsante; è il risultato di una fase di training che il vendor ha fatto una volta, congelato nei pesi del modello, e che tu puoi solo contenere a posteriori con una pipeline esterna ben disegnata. Chi ti promette il contrario non ha letto i paper, e chi ha letto i paper sa che la partita si gioca a monte del vendor, non sotto il tuo tavolo di integrazione.