Soft Adaptive Policy Optimization

29 novembre 2025

Guida a Soft Adaptive Policy Optimization (SAPO): che cos'è, perché è interessante, panoramica dei risultati

Soft Adaptive Policy Optimization (SAPO) è un nuovo metodo di reinforcement learning studiato per rendere più stabili ed efficienti gli aggiornamenti di policy quando si allenano Large Language Models, soprattutto in contesti off-policy e con architetture Mixture-of-Experts (MoE). L'idea centrale è sostituire il classico hard clipping degli importance ratio con una "soft gate" liscia e controllata da una temperatura, che attenua gradualmente gli aggiornamenti troppo fuori policy invece di troncarli di colpo.

Questo è interessante perché i metodi oggi popolari, come GSPO e GRPO, usano clipping duro a livello di token o di sequenza: se un singolo token è troppo off-policy, si rischia di buttare via l'intero gradiente della sequenza, con instabilità, salti improvvisi e spreco di dati. SAPO, invece, è sequence-coherent (rispetta il reward a livello di sequenza) ma allo stesso tempo token-adaptive: penalizza i token problematici senza annullare il segnale utile degli altri, migliorando così la sample efficiency e la stabilità dell'addestramento. Nei benchmark di ragionamento matematico e nel training della famiglia Qwen3-VL, SAPO ottiene curve di training più stabili e un Pass@1 finale più alto rispetto a GSPO/GRPO, a parità di budget di calcolo.

Risorse ufficiali e link

GitHub: nessun repository GitHub ufficiale per "Soft Adaptive Policy Optimization" al momento della scrittura. (Gli unici risultati GitHub collegati sono per altri metodi come CAPO, GAPO o AEPO, non per SAPO stesso.)
Paper: arXiv 2511.20347 - Soft Adaptive Policy Optimization.
Dataset: il paper non introduce né rilascia un dataset dedicato; gli esperimenti usano benchmark standard di ragionamento matematico e suite di valutazione per Qwen3-VL.

Come funziona SAPO: approccio, tecniche e "training recipe" - guida completa

L'obiettivo di SAPO è risolvere un problema tipico del reinforcement learning per LLM: gli importance ratio calcolati a livello di token possono avere varianza altissima, specialmente con dati off-policy e con Mixture-of-Experts, portando a gradienti esplosivi o a training che collassa. I metodi group-based come GSPO e GRPO cercano di controllare questo fenomeno facendo clipping duro degli importance ratio, ma questo crea una banda rigida: appena si supera la soglia, il gradiente viene sostanzialmente azzerato, rendendo difficile bilanciare stabilità e capacità di apprendere.

SAPO sostituisce questo schema con una soft gate per token: invece di dire "aggiornamento sì/no", applica un fattore di scala continuo che vale circa 1 vicino alla policy on-policy e decresce man mano che il token è più off-policy. In pratica si crea una sorta di trust region continua: vicino al comportamento attuale del modello gli aggiornamenti sono forti, mentre quando la policy proposta si discosta troppo, gli aggiornamenti vengono ridotti gradualmente ma non annullati di colpo.

Un altro ingrediente chiave è l'asymmetric temperature design: SAPO usa temperature diverse per token con vantaggio positivo e negativo, così i gradienti su token "negativi" (quelli che vogliamo penalizzare) decadono più velocemente rispetto a quelli positivi. Questo riflette il fatto che aggiornamenti negativi tendono a modificare molte logit in modo più instabile, quindi è meglio frenarli di più per evitare comportamenti troppo aggressivi e instabili.

Dal punto di vista dell'implementazione, SAPO è pensato per integrarsi nel paradigma group-based RL già usato in GSPO/GRPO, quindi si inserisce come variante dell'algoritmo di policy optimization più che come rivoluzione dell'intera pipeline RLHF. La policy viene ancora aggiornata su batch di sequenze con reward a livello di sequenza, ma la pesatura del gradiente lungo la sequenza avviene con la soft gate token-wise invece del clipping duro. Questo permette di mantenere coerenza col reward di sequenza (sequence-coherence) mentre si sfruttano in modo più fine le informazioni a livello di token.

Per quanto riguarda la "training recipe", gli autori valutano SAPO sia su benchmark di ragionamento matematico (con metriche come Pass@1) sia su una famiglia di modelli Qwen3-VL di dimensioni diverse, coprendo quindi sia LLM testuali che modelli vision-language. Gli esperimenti confrontano SAPO con GSPO e GRPO a parità di budget di passi di gradienti e di dati, includendo anche scenari off-policy con replay di dati "stale", per testare quanto bene il metodo riesca a riutilizzare campioni di qualità mista senza instabilità.

Risultati: cosa migliora SAPO rispetto a GSPO/GRPO

Nei benchmark di ragionamento matematico, SAPO mostra curve di training più lisce, con meno oscillazioni e senza i collassi improvvisi che possono verificarsi con metodi basati su hard clipping. In pratica, i reward medi e le metriche di validazione crescono in modo più regolare, segno che la soft gate sta controllando bene gli outlier senza bloccare l'apprendimento.

In termini di qualità finale, SAPO ottiene Pass@1 superiore rispetto a GSPO e GRPO sotto lo stesso budget di passi di ottimizzazione, il che indica che gli aggiornamenti, pur essendo più "gentili", sono in realtà più efficaci nel trasformare compute in miglioramento reale di performance. Questo vantaggio appare sia su modelli puramente testuali sia nella serie multimodale Qwen3-VL, dimostrando che il beneficio non è limitato a un singolo dominio o architettura.

Un risultato importante è la robustezza a dati off-policy e a replay di batch "stale": SAPO mantiene training stabile anche quando si riusano molti campioni generati da policy vecchie, scenario in cui i metodi con clipping duro tendono a generare gradienti molto rumorosi e potenziali collassi. Questo rende SAPO particolarmente interessante per setup industriali, dove si vuole massimizzare il riuso dei dati esistenti per ridurre il costo di raccolta feedback o reward.

Concetti chiave da capire prima di leggere il paper

Per leggere il paper con profitto, è utile chiarire alcuni concetti fondamentali che compaiono continuamente.

Reinforcement learning per LLM e off-policy RL
Nella fase RLHF o similari, il modello genera risposte, riceve un reward (da un modello di reward o da regole) e aggiorna la propria policy per aumentare la probabilità delle risposte ad alto reward. Nel caso off-policy, però, si usano anche dati generati da policy precedenti o diverse, il che richiede importance sampling per correggere il mismatch tra policy corrente e policy che ha generato i dati, aumentando la varianza delle stime.
Importance ratio, clipping duro e trust region
L'importance ratio misura quanto una sequenza/token era probabile sotto la policy corrente rispetto a quella di comportamento; valori estremi generano gradienti molto grandi e instabili. Metodi come PPO/GSPO/GRPO limitano questo fenomeno con hard clipping, cioè tagliando il ratio sopra/sotto una soglia fissa, creando di fatto una trust region "a gradino" che spezza il gradiente quando si esce dalla banda.
Soft gate e trust region continua in SAPO
SAPO sostituisce il gradino del clipping con una funzione liscia, di solito sigmoide, che scala il contributo del token in modo continuo in base all'importance ratio. Questo definisce una trust region continua: vicino a ratio 1 il gradiente è simile a quello non clip-pato, ma man mano che ci si allontana il contributo viene attenuato, evitando sia l'annullamento totale del segnale, sia gli update eccessivi.
Sequence-coherent vs token-adaptive
In metodi puramente sequence-level, il gradiente di tutta la sequenza viene ridimensionato insieme, ignorando differenze tra token; in metodi puramente token-level si rischia di perdere coerenza con il reward di sequenza. SAPO mostra che, sotto condizioni realistiche (passi piccoli e dispersione limitata dei log-ratio entro la sequenza), la media delle soft gate token-wise si comporta come una gate liscia di sequenza, combinando così coerenza a livello di sequenza con adattività a livello di token.
Asymmetric temperature e stabilità dei gradienti negativi
Aggiornamenti positivi e negativi non hanno lo stesso effetto: quelli negativi spesso riducono la probabilità di molti token contemporaneamente e sono più soggetti a introdurre instabilità. Per questo SAPO usa temperature più "severe" sui token a vantaggio negativo, facendo decadere più rapidamente i loro gradienti e riducendo il rischio di oscillazioni e collassi dell'ottimizzazione.

Quiz: metti alla prova la tua comprensione di SAPO

Qual è il principale problema che SAPO cerca di risolvere?

SAPO mira a risolvere l'instabilità degli aggiornamenti di policy in reinforcement learning per LLM, causata da importance ratio ad alta varianza, in particolare in scenari off-policy e con Mixture-of-Experts. Metodi con hard clipping come GSPO/GRPO tendono a essere o troppo conservativi (tagliando troppo spesso il gradiente) o troppo aggressivi (quando il clipping non basta), portando a training rumoroso, inefficiente e talvolta a collasso.

In cosa la soft gate di SAPO è diversa dall'hard clipping di GSPO/GRPO?

L'hard clipping applica una soglia netta sugli importance ratio: oltre un certo range, il gradiente viene sostanzialmente "fermato", creando una banda rigida. La soft gate di SAPO, invece, applica un fattore di scala continuo e liscio che riduce gradualmente il contributo dei token man mano che ci si allontana dalla policy on-policy, preservando il segnale informativo per deviazioni moderate e riducendo il rumore senza azzerarlo.

Cosa significa che SAPO è sequence-coherent e token-adaptive?

Essere sequence-coherent significa che, quando la dispersione dei log-ratio all'interno di una sequenza non è troppo grande, il comportamento medio della soft gate a livello di token si allinea bene con il reward complessivo della sequenza. Essere token-adaptive significa che il metodo può comunque trattare in modo diverso i singoli token, penalizzando quelli fortemente off-policy senza distruggere il gradiente degli altri, aumentando così l'efficienza nell'uso dei dati e la stabilità.

Perché SAPO usa temperature diverse per token con vantaggio positivo e negativo?

I token con vantaggio negativo corrispondono a comportamenti che il modello dovrebbe scoraggiare, ma aggiornamenti negativi forti possono indurre variazioni brusche su molte probabilità, rendendo l'ottimizzazione fragile. Usando temperature più aggressive sui token negativi, SAPO fa sì che i loro gradienti decadano più in fretta man mano che l'importance ratio si allontana dalla zona sicura, mitigando picchi di update e riducendo il rischio di instabilità pur permettendo al modello di imparare a evitare comportamenti indesiderati.

Quali sono i segnali sperimentali che indicano che SAPO è più stabile dei metodi basati su hard clipping?

Le curve di reward e di accuratezza sui benchmark di ragionamento matematico mostrano una crescita più regolare e priva dei drop improvvisi visibili con alcuni baselines. Inoltre, a parità di budget di training, SAPO raggiunge Pass@1 e metriche aggregate di validazione più alte, indicando che il metodo converte meglio la stessa quantità di compute in miglioramento di performance, soprattutto in scenari off-policy e con replay di dati "stale".

Studi correlati su RL stabile per LLM e Mixture-of-Experts - guida rapida

Un filone sempre più ricco affronta il tema della stabilità del reinforcement learning per LLM, spesso introducendo varianti del clipping o dell'importance sampling.

Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts (RSPO)
Questo lavoro introduce Router-Shift Policy Optimization (RSPO), un metodo pensato specificamente per le architetture Mixture-of-Experts, dove la variabilità del router può generare enorme varianza nei gradienti. RSPO sfrutta informazioni del router per ridefinire e riscalare gli importance weight in modo router-aware, ottenendo convergenza più stabile e prestazioni finali migliori su MoE di larga scala.
ASPO: Asymmetric Importance Sampling Policy Optimization
ASPO parte dall'osservazione che in metodi tipo GRPO i token a bassa probabilità con vantaggio positivo vengono aggiornati troppo poco, mentre quelli già ad alta probabilità ricevono update eccessivi, causando overfitting e collasso di entropia. La soluzione è ribaltare gli importance ratio per i token a vantaggio positivo e introdurre un soft dual-clipping, così da bilanciare meglio l'ottimizzazione e rendere più stabili training su benchmark di coding e ragionamento matematico.
BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping
BAPO analizza due cause principali di instabilità nell'off-policy RL per LLM: squilibrio tra contributi positivi e negativi e regole di clipping che tendono a distruggere gli aggiornamenti che aumenterebbero l'entropia. Per affrontare il problema, introduce un adaptive clipping che aggiusta dinamicamente i limiti in base ai contributi dei token, mantenendo l'esplorazione (entropia) e stabilizzando il training su vari scenari off-policy con replay e rollout parziali.
Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers (R3)
Un altro lavoro correlato mostra che, nei modelli MoE, una fonte importante di instabilità è la discrepanza tra il routing in training e in inference. L'algoritmo R3 riutilizza le distribuzioni di routing di inference durante il training, riallineando la selezione degli esperti e portando a reinforcement learning più stabile e prestazioni migliori su vari setup RL per LLM.

Visti insieme, questi lavori (RSPO, ASPO, BAPO, R3) mostrano come la comunità stia convergendo verso una famiglia di metodi che vanno oltre il semplice hard clipping, introducendo gating soft, clipping adattivo e strategie router-aware; SAPO si inserisce in questa tendenza come una soluzione particolarmente pulita e generale per ottenere trust region continue e token-adaptive nel training RL di LLM.