OpenMMReasoner: Ricetta Open per Ragionamento Multimodale

Cos’è OpenMMReasoner e come funziona

Il paper introduce OpenMMReasoner, una ricetta completa e “end-to-end” per addestrare Large Multimodal Reasoning Models (LMRMs) a partire da un modello open-source (Qwen2.5-VL-7B-Instruct), usando prima Supervised Fine-tuning (SFT) e poi Reinforcement Learning (RL) con ricompense verificabili.
L’obiettivo non è proporre “solo un nuovo modello”, ma soprattutto condividere in modo trasparente dati, pipeline e scelte di training, così che altri possano riprodurre e migliorare il sistema.

Il risultato principale è un modello multimodale che supera la baseline Qwen2.5-VL-7B-Instruct di circa 11.6 punti percentuali su nove benchmark di multimodal reasoning (tra cui MathVista, MathVerse, WeMath, MMMU, LogicVista, CharXiv).
In più, il modello finale raggiunge performance allo stato dell’arte su diversi benchmark matematici e di reasoning pur mantenendo una lunghezza di risposta (numero di token) più contenuta rispetto a OpenVisionReasoner, quindi è più efficiente a parità di accuratezza.

Tutto il codice, le pipeline e i dataset SFT/RL sono rilasciati in open source su GitHub.
I dataset SFT (874K esempi) e RL (74K esempi) sono inoltre pubblicati su Hugging Face, rendendo il lavoro particolarmente utile per chi vuole sperimentare con training di LMMs thinking.

Paper, Github Repo

Indice

Cos’è OpenMMReasoner e come funziona
Dentro la ricetta: approcci e tecniche
- Supervised Fine-tuning “cold start”
- Reinforcement Learning per affinare il reasoning
Cosa mostrano davvero gli esperimenti
- Fase SFT: un ColdStart già molto forte
- Fase RL: SOTA multimodale e transfer sul testo
Concetti chiave da capire prima di leggere il paper
Quiz per mettere alla prova la comprensione
Altri lavori da conoscere per contestualizzare OpenMMReasoner
Riferimenti e link utili

Dentro la ricetta: approcci e tecniche

Supervised Fine-tuning “cold start”

La prima fase costruisce un modello “ColdStart” forte in reasoning multimodale usando Supervised Fine-tuning su un dataset curato ad hoc.
Si parte da circa 103K coppie domanda-risposta multimodali raccolte da dataset pubblici (es. LLaVA-CoT, OpenVLThinker, We-Math2.0), che coprono Visual Question Answering e compiti di reasoning visivo.

Gli autori standardizzano il formato delle risposte (stile di reasoning, struttura step-by-step) per evitare instabilità dovute a formati eterogenei.
Poi applicano data distillation: un teacher model molto più grande (Qwen3-VL-235B-Instruct) genera tracce di reasoning per ogni domanda, che vengono filtrate con regole e un “LLM-as-a-judge” per tenere solo esempi con risposta finale corretta e formato valido.

Per ogni domanda non si conserva una sola spiegazione, ma più ragionamenti verificati (fino a 8 per domanda): gli esperimenti mostrano che aumentare la diversity delle risposte (più soluzioni corrette per la stessa domanda) migliora sensibilmente le prestazioni del modello rispetto a usare una sola traccia.
Infine, si effettua domain mixing aggiungendo dataset matematici specializzati, uno con problemi matematici su immagini (MMR1) e uno testuale (MiroMind-M1), ottenendo un dataset SFT finale da circa 874K esempi che combina reasoning generale e matematico.

Un risultato interessante delle ablation è che filtri aggressivi per lunghezza o difficoltà (escludere esempi “troppo facili” o troppo corti) peggiorano le performance, perché riducono la diversità delle tracce utili all’addestramento.
Di conseguenza, la ricetta finale di SFT punta a massimizzare copertura e diversity, piuttosto che “pulizia estrema” del dataset.

Reinforcement Learning per affinare il reasoning

La seconda fase usa Reinforcement Learning per affinare ulteriormente le capacità di reasoning multimodale partendo dal modello ColdStart.
Viene costruito un dataset RL di circa 74K esempi raccogliendo problemi da più sorgenti (MM-Eureka, ViRL, TQA, We-Math, PuzzleVQA, AlgoPuzzleVQA, ThinkLiteVL), che coprono scienza, matematica, grafici, puzzle visivi e altri compiti multimodali.

Questo dataset viene pulito tramite estrazione e verifica della risposta finale, seguita da deduplicazione basata su similarità di immagine e testo, così da evitare problemi ripetuti o quasi uguali.
Durante il RL, il reward combina accuracy del contenuto e rispetto del formato (risposta ben strutturata, formattazione coerente), con un peso relativamente basso sul formato per non penalizzare troppo soluzioni corrette ma “esteticamente” imperfette.

Gli autori confrontano tre algoritmi RL specifici per LLM/LMM: GRPO, DAPO e GSPO, tutti derivati da idee stile PPO ma adattati a risposte sequenziali lunghe.
Dai loro esperimenti emerge che GSPO offre il miglior compromesso tra stabilità, efficienza e qualità delle soluzioni, soprattutto quando si usano 16 rollout per problema (più campioni per stimare il gradiente).

Un’ulteriore scelta progettuale è una penalizzazione della lunghezza per evitare “overthinking”: a differenza di OpenVisionReasoner, che spesso genera catene di reasoning molto lunghe, OpenMMReasoner cerca un equilibrio tra profondità del ragionamento e costo in token.
I risultati mostrano che, su benchmark come MMMU e We-Math, il modello ottiene accuratezza maggiore con meno token prodotti rispetto a OVR.

Cosa mostrano davvero gli esperimenti

Fase SFT: un ColdStart già molto forte

Il modello ColdStart (solo SFT, senza RL) migliora nettamente il baseline Qwen2.5-VL-7B-Instruct su più benchmark di visual reasoning e math-VQA.
In particolare, sfruttare un teacher potente e la moltiplicazione delle tracce per domanda porta guadagni medi di circa 4-5 punti di accuratezza rispetto a usare un singolo esempio per domanda.

L’aggiunta di dati matematici di due tipologie (immagine-centrica e testo-centrica) migliora ulteriormente le prestazioni, suggerendo che la cross-domain supervision aiuta a generalizzare meglio anche su compiti che non sono puramente matematici.
Nel complesso, il ColdStart risulta competitivo o superiore rispetto ad altri metodi SFT-only (come varianti di LLaVA-OneVision o InternVL) pur usando un volume di dati molto inferiore ad alcuni di questi.

Fase RL: SOTA multimodale e transfer sul testo

Con la fase di Reinforcement Learning basata su GSPO e sul dataset da 74K esempi, il modello raggiunge o supera lo stato dell’arte aperto su benchmark come WeMath, MathVerse e MathVista, rispetto sia a metodi SFT-only sia a sistemi RL-based concorrenti (MM-Eureka, MMR1, OpenVLThinker, OpenVisionReasoner, VL-Rethinker, ecc.).
Gli autori mostrano tabelle dove, su nove benchmark multimodali diversi, il modello RL-finetuned ottiene in modo consistente i punteggi più alti tra i modelli open-source di dimensioni simili.

Un risultato molto interessante per chi studia generalization è che, pur allenando l’RL solo su dati multimodali, si osserva un chiaro miglioramento anche su benchmark puramente testuali come AIME24, AIME25 e GPQA Diamond.
In altre parole, le abilità di reasoning acquisite su problemi immagine+testo si trasferiscono a compiti solo testo, indicando che il training RL agisce davvero sulle capacità di ragionamento astratto del modello, non solo sulla parte “visiva”.

Infine, gli autori analizzano fattori di stabilità del training RL: temperature troppo alte portano a traiettorie instabili e possibili divergenze, mentre aumentare il numero di rollout (8 → 16) rende l’ottimizzazione più regolare e migliora il reward medio.
Queste osservazioni sono particolarmente utili come linee guida pratiche se si vogliono riprodurre esperimenti RL su LMMs.

Concetti chiave da capire prima di leggere il paper

Large Multimodal Reasoning Models e RLVR

Un Large Multimodal Reasoning Model (LMRM) è un modello tipo LLM in grado di ragionare su input che includono immagini (e potenzialmente altre modalità) oltre al testo.
L’idea è andare oltre il normale image captioning/QA e arrivare a soluzioni passo-passo per problemi complessi che combinano testo, formule, diagrammi, grafici, tabelle e così via.

Il paper si inserisce nel filone del Reinforcement Learning with Verifiable Rewards (RLVR), già esplorato da modelli testuali come DeepSeek-R1 e OpenAI o1/o3, dove la reward si basa sulla verificabilità automatica della risposta (per esempio, controllando un risultato numerico).
OpenMMReasoner dimostra che lo stesso paradigma può essere esteso con successo a modelli multimodali, mantenendo la verificabilità della risposta finale anche quando l’input contiene immagini.

Supervised Fine-tuning vs Reinforcement Learning

Nel paper, Supervised Fine-tuning (SFT) serve a costruire un modello con buone capacità di reasoning già “out of the box”, sfruttando tracce generate da un teacher e validate automaticamente.
In questa fase il modello apprende a imitare step-by-step reasoning di alta qualità, coprendo molti domini (VQA, matematica visiva, matematica testuale, ecc.) senza ancora usare reward scalari.

La fase di Reinforcement Learning interviene dopo, usando reward basate su correttezza della risposta e rispetto del formato per migliorare stabilità, robustezza e precisione del reasoning.
In pratica, SFT costruisce una policy iniziale forte, mentre RL la affina verso soluzioni più affidabili, stabili ed efficienti dal punto di vista del numero di token.

Data distillation, teacher models e answer diversity

Il concetto di data distillation con un teacher più grande è centrale: invece di usare direttamente dataset grezzi, il modello studente vede tracce di reasoning generate dal teacher e filtrate da controlli automatici.
Questo approccio permette di ottenere supervisioni molto ricche (passo-passo) senza doverle scrivere manualmente, e migliora la “data efficiency” rispetto a usare solo risposte brevi.

Un’altra idea chiave è la answer diversity: generare più risposte verificate per la stessa domanda e includerle tutte nel training.
Gli esperimenti mostrano che più tracce corrette (fino a 8 per domanda) portano a un modello che generalizza meglio rispetto a usare una sola soluzione, perché il modello impara diversi “modi” di ragionare verso la stessa risposta.

RL per LLM/LMM: GRPO, DAPO, GSPO

I tre algoritmi considerati (GRPO, DAPO, GSPO) sono varianti di policy optimization pensate per sequenze di token, con obiettivo di stabilizzare il training e ridurre costi computazionali.
GRPO elimina il critic esplicito, DAPO introduce strategie per mitigare collasso dell’entropia e bias di lunghezza, mentre GSPO usa un importance ratio a livello di sequenza per dare un controllo più diretto sulla probabilità delle intere risposte.

Dai risultati, GSPO emerge come scelta più robusta per multimodal RL: offre traiettorie di training stabili, reward più alti e migliori punteggi finali sui benchmark, soprattutto con 16 rollout per prompt.
Capire qualitativamente come funzionano questi algoritmi (anche senza formule) aiuta a interpretare le curve di training e le scelte degli autori.

Benchmark di multimodal reasoning

Il paper valuta il modello su diversi benchmark, tra cui MathVista, MathVerse, WeMath, LogicVista, MMMU, MMMU-Pro, CharXiv, DynaMath, AIME24/25, GPQA Diamond.
Questi dataset coprono problemi matematici visivi, domande di logica multimodale, esami di matematica olimpica testuale e domande disciplinari multi-settore (es. MMMU), offrendo una visione ampia della capacità di reasoning del modello.

Per leggere il paper con profitto è utile avere un’idea del tipo di task che questi benchmark propongono (domande a scelta multipla, risposte numeriche, spiegazioni step-by-step) e di come vengono misurate accuracy e robustness.
Gli autori usano framework open-source come LMMs-Eval per garantire confronti omogenei tra modelli, cosa rilevante quando si discutono differenze di pochi punti percentuali.

Quiz per mettere alla prova la comprensione

Q: Qual è l’obiettivo principale di OpenMMReasoner: introdurre un nuovo modello, una nuova architettura o una ricetta di training completamente aperta?
A: L’obiettivo principale è proporre una ricetta di training completamente aperta (dati, pipeline, codice, pesi) per Large Multimodal Reasoning Models, più che una nuova architettura.

Q: Perché gli autori usano una fase di Supervised Fine-tuning prima del Reinforcement Learning?
A: Per costruire una policy iniziale già forte in reasoning multimodale, in modo che l’RL debba solo raffinare e stabilizzare le capacità apprese invece di “crearle da zero”.

Q: Che ruolo hanno i teacher models nella costruzione del dataset SFT?
A: Teacher più grandi generano tracce di reasoning verificate, che vengono filtrate automaticamente; distillare da questi teacher migliora qualità dei dati e data efficiency del training SFT.

Q: Perché aumentare il numero di risposte verificate per domanda (answer diversity) migliora le prestazioni?
A: Perché il modello vede diversi percorsi di reasoning corretti verso la stessa risposta, imparando pattern di ragionamento più ricchi e generalizzabili rispetto a una singola traccia.

Q: Quale algoritmo RL viene scelto nella configurazione finale e perché?
A: Viene scelto GSPO, perché offre la combinazione migliore di stabilità, efficienza e reward, soprattutto con 16 rollout per prompt, superando GRPO e DAPO nei loro esperimenti.

Q: In che modo l’RL, pur essendo addestrato su dati multimodali, migliora anche il reasoning testuale puro?
A: Le abilità di reasoning apprese su problemi immagine+testo si trasferiscono a compiti solo testo (es. AIME, GPQA), mostrando che l’RL agisce su capacità di ragionamento astratte condivise tra modalità.

Q: Perché gli autori considerano importante la trasparenza della data pipeline rispetto a lavori precedenti?
A: Perché molti lavori precedenti non descrivono in dettaglio curation dei dati e scelte di training, rendendo difficile la riproducibilità; OpenMMReasoner colma questo gap rendendo tutto il processo esplicito e open-source.

Altri lavori da conoscere per contestualizzare OpenMMReasoner

Diversi lavori recenti su language reasoning hanno mostrato l’efficacia di RL con ricompense verificabili, come DeepSeek-R1 e i modelli OpenAI o1/o3, che migliorano reasoning matematico, programmazione e compiti scientifici partendo da LLM testuali.
OpenMMReasoner estende questa linea di ricerca al setting multimodale, adottando principi simili (verifica automatica della risposta, RLVR) ma su input che includono immagini.

Nel campo multimodale, lavori come MM-Eureka, ThinkLite-VL, OpenVLThinker e VL-Rethinker hanno esplorato l’uso del RL per rafforzare la comprensione visiva fine-grained e il reasoning cross-modal.
Questi studi mostrano che il RL può migliorare notevolmente la performance su benchmark difficili, ma in genere non offrono una pipeline di dati altrettanto completa e trasparente quanto quella di OpenMMReasoner.

Il lavoro OpenVisionReasoner (OVR) è particolarmente vicino: propone anch’esso una combinazione di SFT e RL per multimodal reasoning, ma non fornisce un recipe unificato e scalabile con data pipeline completamente aperta.
Nel confronto riportato nel paper, OpenMMReasoner raggiunge accuracy superiori su vari benchmark e, soprattutto, usa meno token per risposta, risultando più efficiente.

Altri studi focalizzati su SFT, come quelli su LLaVA-CoT, MMR1 e MiroMind-M1, evidenziano l’importanza di supervisioni step-by-step e dati matematici ben curati per abilitare reasoning avanzato.
OpenMMReasoner integra queste idee in una pipeline coerente, mostrando come combinare SFT ricco di reasoning e RL multimodale per ottenere un LMRM forte e completamente riproducibile.