Monet: Reasoning in Latent Visual Space Beyond Images and Language

stato della ricerca deep learning

Di cosa parla il paper, perché è interessante, panoramica dei risultati

Questo paper presenta Monet, un training framework che permette a un MultiModal Large Language Model (MLLM) di ragionare direttamente in un latent visual space, generando continuous embeddings che funzionano come “visual thoughts” intermedi durante il reasoning. Rispetto ai precedenti approcci di thinking with images, che dipendono da tool esterni per generare o manipolare immagini esplicite, Monet punta a un tipo di pensiero visivo più astratto e flessibile, più vicino a come le persone “immaginano” mentalmente scene e relazioni.

Gli autori identificano due problemi chiave: l’elevato costo computazionale dell’allineamento tra visione latente e modello linguistico, e la mancanza di una buona supervisione sugli embeddings latenti generati dal modello. Per risolverli propongono una pipeline di distillation-based supervised fine-tuning in tre fasi, insieme a una nuova procedura di reinforcement learning chiamata VLPO (Visual-latent Policy Optimization), specificamente pensata per migliorare il reasoning latente invece di agire solo sul testo. Il modello risultante, Monet-7B, mostra miglioramenti consistenti su benchmark di percezione e reasoning nel mondo reale e una forte generalizzazione out-of-distribution su difficili task di abstract visual reasoning.

Risorse utili:
GitHub ufficiale di Monet
Pagina arXiv 2511.21395
Secondo gli autori, modello, dati e codice sono accessibili tramite questi link; non è indicato un URL separato dedicato solo al dataset oltre agli asset collegati dalla stessa risorsa.

Indice

Approcci, tecniche e ricetta di training

Il cuore di Monet è l’idea che il modello non debba limitarsi a passare da testo a immagine e viceversa, ma possa inserire passi di ragionamento puramente latenti, cioè embeddings visivi che non vengono mai resi come immagini “a pixel”, ma che influenzano i passaggi successivi della chain-of-thought. In pratica, il MLLM impara a produrre e consumare questi vettori continui come se fossero schizzi mentali: rappresentazioni compatte di strutture spaziali, oggetti e relazioni utili a risolvere il task.

Per far funzionare questo schema, gli autori adottano una pipeline di fine-tuning supervisionato in tre fasi basata su distillation, che affronta in modo mirato i costi di allineamento visione-linguaggio e la povertà di segnali di supervisione sugli embeddings latenti. La supervisione arriva da Monet-SFT-125K, un dataset di 125k esempi con CoT testuale e visivo intrecciati, che coprono dati reali, chart, OCR e problemi geometrici, in cui gli step intermedi includono informazioni visive e non solo testo. Nella parte finale del training entra in gioco VLPO, una procedura di reinforcement learning che, a differenza di GRPO tradizionale, inserisce esplicitamente gli embeddings latenti nel calcolo degli aggiornamenti di policy, per potenziare proprio la componente di latent visual reasoning.

Breakdown dei risultati

Nei benchmark di percezione e reasoning nel mondo reale, Monet-7B mostra miglioramenti consistenti rispetto a MLLM baseline che non utilizzano reasoning nel latent visual space, indicando che le “visual thoughts” continue aiutano il modello a collegare meglio evidenze visive e inferenze testuali. Inoltre, su task di abstract visual reasoning fuori distribuzione (ad esempio problemi geometrici o schematici non visti in training) il modello mantiene prestazioni robuste, segno che ha appreso strategie generali di ragionamento visivo e non solo pattern specifici dei dati di addestramento.

Una sintesi divulgativa pubblicata in cinese sottolinea che Monet-7B, sviluppato con il contributo di ricercatori di Peking University e MIT, viene descritto come un modello che “impara finalmente a immaginare nella mente” per risolvere problemi visivi complessi, enfatizzando la capacità di ragionare su scene e strutture senza dover generare ogni volta nuove immagini esplicite. Questo aspetto lo rende particolarmente interessante per applicazioni dove servono più passaggi di reasoning astratto (come analisi di diagrammi, grafici e figure tecniche) senza un overhead enorme in termini di generazione e processamento di immagini.

Concetti chiave da capire prima di leggere il paper

Per sfruttare al meglio questo lavoro come guida a Monet e come guida completa a come funziona Monet, è utile avere chiari alcuni concetti fondamentali.


  • Latent visual space ed embeddings continui
    Invece di lavorare solo con immagini in forma di pixel, Monet ragiona in uno spazio latente, cioè in uno spazio vettoriale continuo in cui ogni punto rappresenta una “configurazione visiva” compressa ma semanticamente ricca. Questi embeddings sono abbastanza espressivi da rappresentare oggetti, relazioni e layout, ma molto più leggeri e manipolabili rispetto a immagini complete, rendendo possibile usarli come step di reasoning intermedio.



  • Thinking with images vs latent visual thinking
    I metodi precedenti di thinking with images in genere si appoggiavano a tool esterni per creare o modificare immagini (per esempio generare figure intermedie, zoom, ritagli) e poi farle ri-interpretare al modello, con una pipeline rigida e dipendente da componenti separati. Monet, invece, evita questa dipendenza e sposta tutto in uno spazio latente: il modello genera direttamente visual thoughts continue, riducendo overhead e guadagnando flessibilità, perché non è vincolato a operare su immagini discrete e formati predefiniti.



  • Distillation-based supervised fine-tuning in tre fasi
    Per istruire il modello a usare bene questo latent visual space, gli autori adottano una strategia di distillation, ossia il modello studente impara da segnali generati o curati da sistemi più forti o pipeline complesse, ma in una forma più compatta e riutilizzabile. La pipeline a tre fasi permette di prima allineare visione e linguaggio, poi affinare la qualità delle visual thoughts con dati CoT ben etichettati e infine consolidare le strategie di reasoning tramite ottimizzazione guidata da reward.



  • Monet-SFT-125K: il dataset di training
    Monet-SFT-125K è un dataset di 125k esempi in cui testo e immagini sono intrecciati lungo la chain-of-thought, coprendo casi real-world, chart, OCR e geometria, proprio per spingere il modello a usare informazioni visive in ogni passaggio del ragionamento. A differenza di dataset solo testuali o solo di QA visiva, qui ogni episodio include step intermedi supervisionati che insegnano al modello come costruire e usare visual thoughts coerenti con le evidenze.



  • Da GRPO a VLPO per il latent reasoning
    Gli autori osservano che usare direttamente GRPO – un metodo di reinforcement learning comune per migliorare il reasoning testuale – porta soprattutto vantaggi nella parte di testo, senza incidere veramente sulla qualità del reasoning latente. Per questo propongono VLPO, che integra i latent embeddings nel calcolo degli aggiornamenti di policy, assicurando che il segnale di reward premi anche le buone strategie di esplorazione e utilizzo del latent visual space.


Quiz: guida a Monet e al suo funzionamento

In che cosa Monet si differenzia dai precedenti metodi di “thinking with images”?

La differenza principale è che Monet permette al MLLM di ragionare direttamente in uno spazio visuale latente, generando embeddings continui come visual thoughts intermedi, invece di appoggiarsi a tool esterni che producono immagini esplicite a ogni passaggio. Nei metodi precedenti, il modello doveva spesso generare immagini intermedie, passarle a un modulo visivo, leggere la risposta e poi continuare il reasoning, con un flusso rigido e costoso; Monet concentra queste operazioni in uno spazio vettoriale interno, più leggero, flessibile e adatto a reasoning astratto.

Che cos’è Monet-SFT-125K e perché è importante?

Monet-SFT-125K è un dataset di 125.000 esempi di chain-of-thought multimodale in cui testo e informazione visiva sono interlacciati lungo tutto il reasoning, includendo dati real-world, chart, OCR e problemi geometrici. È cruciale perché fornisce la supervisione necessaria affinché il modello impari non solo a dare la risposta finale, ma anche a costruire passo passo visual thoughts latenti coerenti, creando così un’abitudine strutturata a usare lo spazio visivo latente durante il ragionamento.

Perché GRPO non è sufficiente e cosa aggiunge VLPO?

Nel paper si osserva che applicare GRPO direttamente a questo setup tende a migliorare soprattutto la qualità della chain-of-thought testuale, senza incidere in modo deciso sulla parte di latent visual reasoning. VLPO, invece, modifica la procedura di reinforcement learning in modo da includere esplicitamente gli embeddings latenti nel policy gradient, così che il reward tenga conto sia di come il modello ragiona in testo sia di come costruisce e utilizza le sue rappresentazioni visive interne.

Che tipo di miglioramenti mostra Monet-7B rispetto alle baseline?

Monet-7B ottiene gains consistenti su benchmark di percezione e reasoning nel mondo reale, rispetto a MLLM di riferimento che non dispongono di reasoning nel latent visual space, suggerendo che le visual thoughts continue forniscono un vantaggio concreto nell’integrare informazione visiva e testuale. Inoltre, il modello mostra una forte capacità di generalizzare a task di abstract visual reasoning che sono fuori dalla distribuzione dei dati di addestramento, indicando che ha imparato strategie di reasoning visivo più generali e non semplici scorciatoie basate sui pattern del training set.

Per quali tipi di task Monet sembra particolarmente promettente?

Dalle descrizioni degli autori e dalle analisi qualitative emerge che Monet è particolarmente promettente per problemi visivi multi-step che richiedono immaginare trasformazioni, confrontare configurazioni geometriche o interpretare diagrammi e grafici complessi. In questi scenari, poter manipolare uno spazio latente visivo durante più passi di reasoning permette al modello di mantenere una rappresentazione coerente e astratta del problema, senza dover rigenerare immagini esplicite a ogni step.

Studi correlati e contesto nella letteratura

Monet si inserisce nella linea di ricerca sui multimodal chain-of-thought, dove l’obiettivo è far sì che i modelli non usino le immagini solo come input iniziale, ma le integrino come parte attiva del processo di reasoning, ad esempio annotando regioni, confrontando più viste o costruendo descrizioni intermedie. In molti di questi lavori, tuttavia, la componente visiva resta esterna al modello: si generano immagini, si applicano moduli dedicati (segmenter, detector, image generator) e si rientra nel modello linguistico, con un’architettura a blocchi separati.

Il contributo distintivo di Monet è spostare questo processo interamente nello spazio latente, superando così il vincolo di dover gestire immagini discre­te a ogni passo e riducendo la dipendenza da tool esterni, che gli autori indicano come uno dei principali limiti dei metodi esistenti. In questo senso, il lavoro può essere visto come una “guida completa” verso MLLM che non solo vedono immagini, ma pensano in modo visivo attraverso embeddings continui, aprendo la strada a futuri studi che estendano lo stesso paradigma a spazi latenti audio, video o 3D.

Torna in alto