Interplay-LM-Reasoning guida completa: pre, mid e RL

Il paper propone un framework sperimentale controllato per separare (davvero) il contributo di pre-training, mid-training e RL post-training nel migliorare il reasoning dei language model. Il risultato più pratico è una regola operativa: l’RL porta guadagni “reali” solo quando alleni su compiti calibrati sul bordo di competenza del modello, non troppo facili e non impossibili.

Titolo originale: On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models – 8 dicembre 2025 – fonte: arXiv (2512.07783v1).

Indice

Che cos’è Interplay-LM-Reasoning e perché è importante: Interplay-LM-Reasoning guida completa
Interplay-LM-Reasoning spiegato più in dettaglio
Domande frequenti (FAQ) su Interplay-LM-Reasoning
Riferimenti e link utili

Che cos’è Interplay-LM-Reasoning e perché è importante: Interplay-LM-Reasoning guida completa

Che cos’è Interplay-LM-Reasoning in parole semplici?

Interplay-LM-Reasoning è un framework sperimentale controllato per capire quando e perché certe scelte di training migliorano il ragionamento. Invece di analizzare pipeline reali piene di variabili nascoste (dati web opachi, contaminazioni, ricette non riproducibili), costruisce un banco di prova sintetico dove ogni leva è manipolabile.

L’oggetto di studio è molto concreto: modelli decoder-only allenati su problemi di ragionamento “math-style” generati in modo sistematico, con operazioni atomiche esplicite e tracce di reasoning verificabili passo-passo. Questo consente di misurare non solo se la risposta finale è giusta, ma anche se il percorso è coerente.

Qual è il problema che risolve: perché è difficile capire cosa fa davvero l’RL?

Nel dibattito recente sui reasoning language model (Reasoning LMs), c’è una questione ricorrente: l’apprendimento per rinforzo (reinforcement learning, RL) è un “rifinitore” di abilità già presenti o crea capacità nuove? Il paper sostiene che molte conclusioni divergenti dipendono dal fatto che, nei setting moderni, non sappiamo cosa il modello abbia già visto e interiorizzato durante il pre-training.

La conseguenza pratica è che, senza controllo, è facile attribuire all’RL meriti (o colpe) che in realtà vengono da esposizioni precedenti ai dati. Interplay-LM-Reasoning prova a risolvere questo problema con dataset e split disgiunti e con una definizione esplicita di difficoltà, copertura e generalizzazione.

Quali domande mette sotto controllo (e perché dovrebbero interessarti)

Il paper struttura l’analisi attorno a tre blocchi di pipeline: addestramento preliminare (pre-training), addestramento intermedio (mid-training) e post-addestramento (post-training) via RL. Il punto non è solo misurare se “sale l’accuracy”, ma isolare le condizioni in cui l’RL spinge oltre i limiti del modello base.

In parallelo, introduce un tema spesso trascurato: il mid-training come fase ponte (in alcune linee chiamata continued pre-training). La tesi è che il mid-training può determinare quanta “prontezza all’RL” abbia un modello, e che ignorarlo porta a interpretazioni sbagliate sul valore del post-training.

Perché la distinzione tra extrapolative e contextual generalization cambia la lettura dei risultati

Interplay-LM-Reasoning misura la generalizzazione su due assi, che nella pratica corrispondono a due modi diversi in cui un modello può fallire. La generalizzazione estrapolativa (extrapolative generalization) riguarda la capacità di risolvere problemi più profondi/complessi di quelli visti in training, componendo operazioni in catene più lunghe.

La generalizzazione contestuale (contextual generalization) riguarda invece il trasferimento tra “forme superficiali” diverse: stesso ragionamento sottostante, ma contesti narrativi e template linguistici differenti. È un proxy utile per capire se il modello sta imparando primitive trasferibili o sta memorizzando stili.

Impatto pratico: cosa cambia per ricercatori, developer e team di prodotto

Se fai ricerca, il contributo più importante è metodologico: un esperimento progettato per separare cause e correlazioni nel training dei reasoning LMs, includendo anche la dimensione del reward design e del reward hacking.

Se sviluppi modelli o pipeline, il paper fornisce un playbook “operativo”: calibrare i dati RL sull’edge of competence, usare il mid-training per installare priors utili, e introdurre segnali di processo per ridurre scorciatoie. Queste idee sono indipendenti dal fatto che tu stia allenando un 100M o un frontier model: il pattern è di design, non di scala.

Link rapidi alle risorse

GitHub: Interplay-LM-Reasoning
Paper: arXiv:2512.07783
Dataset: non disponibile (nel repo viene indicato che code e data saranno rilasciati a breve).

Interplay-LM-Reasoning spiegato più in dettaglio

Dataset sintetico controllabile: DAG, operazioni atomiche e template di contesto

Il cuore del framework è un generatore di problemi basato su grafi di dipendenza: ogni esercizio è descritto da un grafo aciclico diretto (directed acyclic graph, DAG) dove nodi e archi codificano variabili e dipendenze. In questo modo, il reasoning non è una “narrazione” libera: ha una struttura verificabile.

La difficoltà viene controllata in modo trasparente usando il numero di operazioni aritmetiche (op): aumentare op significa aumentare la profondità della catena di calcolo e quindi la richiesta di composizione. Questo rende possibile definire “in-distribution” e “out-of-distribution” senza ambiguità.

Sopra la struttura, il framework applica un rendering contestuale (contextual rendering): lo stesso DAG viene espresso in template narrativi diversi (esempi nel paper includono coppie tipo animals-zoo). Qui nasce la possibilità di studiare la contextual generalization: cambia la superficie, non cambia la logica.

Un vantaggio cruciale è il controllo sulla contaminazione: pre-training, mid-training e post-training usano split disgiunti per evitare sovrapposizioni indesiderate. In altre parole, se vedi un miglioramento, hai molte più chance di attribuirlo alla fase giusta.

Due assi di generalizzazione: depth e breadth

Nel paper, la generalizzazione non è un numero unico. La parte “depth” (extrapolative) chiede: il modello sa comporre primitive note in strutture più profonde di quelle viste? Qui l’obiettivo non è “fare bene su op simili”, ma mantenere correttezza quando la catena si allunga oltre il training range.

La parte “breadth” (contextual) chiede: il modello trasferisce le stesse primitive in contesti rari o nuovi? È una domanda diversa: spesso modelli che reggono bene in profondità collassano quando cambiano i template, perché hanno imparato scorciatoie legate al formato.

Perché questa distinzione è importante per te? Perché molte pipeline reali ottimizzano implicitamente la “depth” (più step, più compute, più sampling) ma trascurano la “breadth” (robustezza a contesti e forme). Interplay-LM-Reasoning ti dà un modo per diagnosticare dove stai migliorando davvero.

Process-verified evaluation: perché non basta controllare la risposta finale

La valutazione usa una verifica di processo (process verification): il modello produce una soluzione free-form, ma poi questa viene parsata in un grafo predetto e confrontata col grafo gold, a livello di step. Il risultato è una metrica che richiede coerenza sia nella catena sia nell’output finale.

Questo punto sembra tecnico, ma ha un impatto enorme: molte regressioni o “falsi miglioramenti” spariscono quando chiedi al modello di essere corretto anche nel percorso. Nel paper, tutte le metriche pass@k (come pass@1 e pass@128) sono riportate con questo criterio stringente.

In pratica, è una forma di “debugging scientifico” del reasoning: non ti accontenti di un finale giusto ottenuto per caso o via scorciatoia. E questa scelta è coerente con il messaggio del paper sul reward hacking: se non osservi il processo, rischi di ottimizzare verso comportamenti che non vuoi.

Pipeline di training: pre-training, mid-training, RL post-training e cosa viene tenuto fisso

Il paper addestra modelli decoder-only Qwen2.5-style da 100M parametri su un corpus sintetico che arriva a 30B token, con range di operazioni e template diversi. Questa scala è sufficiente per osservare dinamiche non banali, ma abbastanza piccola da permettere controlli sperimentali rigorosi.

Il pre-training, in questo setting, non mira a “conoscenza generale del mondo”, ma a installare primitive di ragionamento aritmetico. Viene eseguito su 10B token nel range op=2-10, in modo da saturare le capacità su ID e lasciare headroom per testare l’estrapolazione.

Il mid-training è presentato come fase ponte: nel loro setup mantengono lo stesso obiettivo del pre-training, ma restringono la distribuzione verso esempi più vicini a quelli che verranno usati in RL, dove la competenza è “emergente ma incompleta”. È un modo per rendere il modello più “RL-ready” senza cambiare tutto.

Per il post-training usano GRPO (un algoritmo RL già noto nel contesto di modelli di reasoning), e selezionano ricette di dati diverse per testare quando l’RL generalizza e quando no. La parte importante, qui, è la variazione sistematica della difficoltà (op range) mantenendo fisso il resto.

Quando l’RL crea vera capacità: l’edge of competence come concetto operativo

Il risultato più spendibile è che l’RL non produce sempre “nuove abilità”. Su task in-distribution (op=2-10) migliora pass@1 ma non pass@128: segnale che sta soprattutto rendendo più affidabile qualcosa che il modello già sa fare, non estendendo il limite.

I guadagni “di capacità” emergono quando l’RL lavora su dati calibrati sull’edge of competence: task appena oltre il range di pre-training (nel paper op=11-14), dove il modello base ha ancora pass@128 non nullo. Allenando lì, l’RL produce miglioramenti extrapolativi anche su op più difficili (op=15-20).

Il paper riassume il pattern in due condizioni: serve headroom (non deve essere già tutto coperto dal pre-training) e serve calibrazione (né troppo facile né troppo fuori distribuzione). In figura introduttiva riportano anche incrementi fino a +42% pass@128 quando la calibrazione è corretta.

Come trasformare l’edge of competence in una ricetta pratica di data curation

La raccomandazione è sorprendentemente concreta: costruisci (o filtra) il dataset RL cercando esempi in cui il modello fallisce a pass@1 ma riesce a pass@k. Quella fascia è un buon proxy del bordo: sufficiente segnale per apprendere, ma abbastanza difficile da spingere composizione e generalizzazione.

C’è anche un’idea di curriculum naturale: ripeti periodicamente la stima dell’edge of competence perché, man mano che il modello migliora, compiti prima “hard” entrano nella fascia allenabile. È un meccanismo di auto-calibrazione che riduce il rischio di sprecare compute su esempi troppo facili o troppo reward-sparse.

In un team reale, questo si traduce in una procedura ciclica: (1) valutazione con sampling, (2) tagging degli esempi per fascia di solvibilità, (3) RL sulla fascia “gap”, (4) rivalutazione. Non è una promessa teorica: è un modo per far dialogare eval e training senza affidarsi a intuizioni.

Pre-training exposure e transfer: perché 0% e 1% sono mondi diversi

Sulla contextual generalization, il paper mostra un fenomeno “a soglia”: senza esposizione minima al contesto long-tail nel pre-training, l’RL non trasferisce. In un setting, 0% o 0.1% di esposizione al contesto B porta a fallimento del trasferimento; introdurre 1% cambia drasticamente la capacità di generalizzare anche su compiti difficili.

L’interpretazione è importante: l’RL non è magia. Se nel modello base mancano le primitive o almeno un “seme” di rappresentazione del contesto, il reward non basta a inventare la mappatura tra superficie e struttura. Ma una copertura sparsa può essere sufficiente perché l’RL amplifichi e stabilizzi il comportamento.

Nella figura introduttiva si parla anche di guadagni fino a +60% pass@128 nel caso di exposure sparsa che abilita il transfer. Non va letto come numero universale, ma come indicazione che, quando superi la soglia, l’RL diventa affidabile nel rinforzare la generalizzazione cross-context.

Mid-training come ponte: perché spesso è il fattore nascosto dietro RL “che funziona”

Il paper propone il mid-training come leva centrale ma sotto-esplorata. Il punto non è sostituire l’RL, ma preparare un terreno dove l’RL possa esplorare con stabilità e sample-efficiency, perché alcune prior strutturali vengono installate prima.

Per analizzare la sinergia, normalizzano mid-training e RL sotto un budget di compute comparabile e testano diverse strategie di mix: full mid-training, full RL e mix con più o meno RL. I risultati cambiano qualitativamente a seconda che tu stia ottimizzando OOD-edge o OOD-hard.

In sintesi: più mid-training (con RL “leggero”) tende a massimizzare affidabilità su compiti vicini, mentre più RL tende a spingere esplorazione e performance sui compiti più duri. Nel paper, la combinazione mid-training + RL batte RL-only sotto budget fisso, e nella figura introduttiva citano un +10.8% su OOD-hard rispetto a RL-only.

Reward design: process supervision per ridurre reward hacking senza perdere performance

Il paper affronta direttamente un rischio classico del post-training: hacking della ricompensa (reward hacking), cioè massimizzare reward/accuracy finale con ragionamenti invalidi o scorciatoie spurie. In un setting outcome-only, questo rischio aumenta quando la valutazione non osserva la struttura del reasoning.

La proposta è integrare segnali di processo nel reward: oltre al reward binario di outcome, aggiungono una componente densa basata sulla process verification, e valutano diverse miscele. L’osservazione riportata è che inserire informazione di processo migliora le metriche e aumenta la “fidelity” del reasoning.

In particolare, riportano miglioramenti di 4-5% su pass@1 in setting extrapolativi, e indicano che mix moderati bilanciano outcome e coerenza del percorso; una variante più “strict” spinge ulteriormente la fedeltà. Il punto da portare a casa è di design: se puoi verificare (anche parzialmente) il processo, puoi ridurre incentivi a barare.

Confronto con approcci precedenti: perché questo paper “ricompone” un dibattito

Una parte del valore del paper è che riconcilia due famiglie di risultati: lavori che vedono RL come capability refiner su domini già coperti, e lavori che vedono guadagni netti su task sintetici o poco coperti dal pre-training. Nel loro setting, entrambe le letture diventano vere in regioni diverse della difficoltà.

Questo è rilevante per chi legge benchmark pubblici: se valuti su compiti che un modello base già risolve bene (alto pass@k), è plausibile vedere poco margine “di capacità”. Se invece costruisci compiti appena oltre il bordo, l’RL può produrre generalizzazione estrapolativa misurabile.

Il messaggio non è “RL sempre funziona” né “RL non serve”: è “RL è sensibile alla posizione nel paesaggio di competenza e alla copertura del pre-training”. Questa è una conclusione più utile perché porta a una variabile controllabile: la scelta dei dati e la loro calibrazione.

Limiti e punti aperti: dove Interplay-LM-Reasoning potrebbe non trasferire

Il primo limite è di dominio: il framework usa task di ragionamento aritmetico sintetico con struttura verificabile. È un vantaggio per la causalità sperimentale, ma significa che il trasferimento a ragionamento “aperto” (testo libero, tool use, world knowledge) non è automatico e va dimostrato.

Il secondo limite è che la process verification richiede output parsabili in una forma compatibile con il gold. In molti scenari reali, non hai un DAG ground-truth; devi usare verificatori esterni, test unitari, esecuzione di codice o metriche surrogate. La lezione sul process reward resta valida, ma l’implementazione cambia.

Il terzo limite è di scala e di architettura: qui parliamo di un 100M Qwen2.5-style in un setting controllato. Non è una debolezza, è una scelta sperimentale; però i numeri assoluti (percentuali di miglioramento) non vanno “copiati” su modelli frontier senza un’analisi equivalente del loro bordo di competenza.

Codice, checkpoint e licenze: cosa è disponibile oggi

Esiste un repository GitHub pubblico con licenza MIT. Tuttavia, nella pagina principale viene anche indicato che “code e data” saranno rilasciati molto presto, quindi è ragionevole aspettarsi che alcune parti siano ancora in evoluzione.

Su Hugging Face risultano disponibili almeno due repository di checkpoint legati ai task di extrapolazione: uno per post-training RL e uno per mid-training, entrambi con licenza MIT. Non sono deployati su inference provider, quindi l’uso tipico è download e analisi locale.

Per un lettore pratico questo significa: puoi già studiare artefatti e impostazione, ma per riprodurre end-to-end (soprattutto dataset e pipeline completa) potresti dover attendere un rilascio più completo o costruire una versione ridotta del generatore basandoti sulla descrizione del paper.

Domande frequenti (FAQ) su Interplay-LM-Reasoning

Interplay-LM-Reasoning è un modello pronto all’uso o un framework di ricerca?

È principalmente un framework di ricerca per isolare i contributi di pre-training, mid-training e RL, non un prodotto “chat pronto”. Ci sono checkpoint su Hugging Face, ma l’obiettivo del lavoro è capire le condizioni di generalizzazione e fornire indicazioni di training design, non rilasciare un assistant general-purpose.

Posso applicare l’idea dell’edge of competence alla mia pipeline RLHF/RLAIF?

Sì, come principio di data curation: cerca task dove il modello è vicino al bordo, cioè fallisce spesso con una singola risposta ma riesce con più sampling. Il paper consiglia esplicitamente questa strategia per evitare sia ridondanza (task troppo facili) sia reward sparsity (task impossibili).

Quanto serve davvero il mid-training rispetto a fare più RL?

Nel paper, sotto compute budget comparabile, mid-training e RL risultano complementari: più mid-training aiuta stabilità e performance su OOD-edge, mentre più RL spinge l’esplorazione su OOD-hard. La raccomandazione è allocare budget in modo task-aware, non scegliere un’unica fase “vincente”.

Process supervision significa sempre dover “mostrare” il chain-of-thought?

Non necessariamente. Qui la process supervision funziona perché esiste una process verification basata su struttura del problema e parsing delle step. In ambienti reali puoi ottenere segnali di processo anche senza rendere pubblico il reasoning: tramite verificatori, esecuzione, test, o controlli strutturali interni. Il punto è allineare reward e comportamento valido.

Quali sono i principali limiti: cosa non devo concludere da questo paper?

Non concludere che l’RL “crea capacità” sempre e comunque. Il lavoro mostra che i guadagni dipendono da copertura del pre-training, calibrazione dei dati RL e presenza di un ponte (mid-training). Inoltre, essendo un setting sintetico controllato, serve cautela nel trasferire numeri assoluti e ricette identiche su domini aperti.

Cosa aspettarsi nei prossimi anni rispetto a Interplay-LM-Reasoning?

Il trend plausibile è più attenzione a pipeline multi-stage “esplicite”: mid-training come fase progettata (non casuale), RL costruito come curriculum sull’edge of competence, e reward con segnali di processo per ridurre reward hacking. Interplay-LM-Reasoning dà un linguaggio e un metodo per misurare queste scelte, cosa che può influenzare standard di eval e training.