Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

29 novembre 2025

Che cos'è Chain-of-Visual-Thought (CoVT) - guida e panoramica

Questo paper introduce Chain-of-Visual-Thought (CoVT), un framework che permette ai Vision-Language Models (VLMs) di "pensare" non solo in parole, ma anche in continuous visual tokens, cioè piccoli vettori latenti che rappresentano in modo compatto informazioni visive dense come segmentazione, profondità, bordi e feature semantiche. L'obiettivo è superare un limite molto concreto dei VLM attuali: quando tutta la visione viene compressa in testo, si perdono segnali fini come geometria, layout 2D/3D e contorni, rendendo difficile contare oggetti, capire chi è più vicino alla camera o seguire relazioni spaziali complesse.

CoVT aggiunge a un VLM esistente (per esempio Qwen2.5-VL-7B o LLaVA) una piccola quantità di visual tokens (circa 20) che vengono appresi distillando conoscenza da vision experts leggeri: SAM per la segmentazione, DepthAnything v2 per la profondità, PIDINet per i bordi e DINOv2 per le feature semantiche. Durante l'addestramento, il modello impara a prevedere questi token all'interno della catena di ragionamento e a ricostruire da essi mappe dense (maschere, depth map, edge map, feature map), mentre a inference-time può usare i token solo come "pensieri visivi" interni o, opzionalmente, decodificarli per fornire spiegazioni interpretabili.

Nei benchmark, integrare CoVT in VLM forti porta miglioramenti consistenti tra 3% e 16% su più di dieci dataset di percezione, ad esempio un +5.5% su CV-Bench complessivo e un +14% sul sotto-task di profondità, oltre a guadagni su RealWorldQA, MMVP, MMStar e HRBench, mantenendo prestazioni competitive anche su task non strettamente visivi. Il risultato chiave è che far ragionare il modello in uno spazio visivo continuo, invece che costringerlo a verbalizzare tutto in linguaggio naturale, migliora sia l'accuratezza su problemi visivi difficili, sia la interpretabilità del processo di ragionamento.

Risorse:

GitHub: al momento della scrittura non è indicato un GitHub repo ufficiale per CoVT né sulla pagina arXiv né sulla project page, quindi sembra non ancora disponibile.
Paper: https://arxiv.org/abs/2511.19418
Dataset: non esiste un "CoVT Dataset" dedicato; gli autori usano una combinazione di subset vision-centric di LLaVA-OneVision, dati di percezione spaziale come TallyQA e ADE20K-Depth più altre sorgenti descritte in appendice.

Come funziona CoVT: approccio, tecniche e training recipe

L'idea centrale è far sì che il VLM generi una sequenza mista di token testuali e continuous visual tokens, che costituisce la "Chain-of-Visual-Thought"; questi token vengono poi usati per condizionare i passi successivi di generazione e arrivare alla risposta finale. Al posto di invocare strumenti esterni (tool-augmented VLM) o generare immagini intermedie costose, CoVT incorpora la percezione fine direttamente nello spazio latente del modello.

I quattro tipi di CoVT tokens

CoVT definisce quattro famiglie di visual tokens, ciascuna supervisionata da un vision expert diverso e pensata per una specifica abilità percettiva.

Segmentation tokens (SAM): 8 token che fungono da prompt per il decoder di SAM, ricostruendo maschere di oggetti; forniscono al VLM capacità di instance recognition e percezione 2D (posizione e forma degli oggetti).
Depth tokens (DepthAnything v2): 4 token che guidano la ricostruzione di mappe di profondità, permettendo di ragionare su distanze relative e struttura 3D della scena.
Edge tokens (PIDINet): 4 token che determinano edge map ad alta risoluzione, utili per rilevare contorni e struttura geometrica fine.
DINO tokens (DINOv2): 4 token che si allineano a feature di patch-level, fornendo informazioni semantiche ricche e globali sull'immagine.

In totale, una configurazione tipica usa 8 token di segmentazione + 4 di depth + 4 di edge + 4 di DINO ~ 20 visual tokens, mantenendo il budget molto contenuto rispetto alla lunghezza del contesto testuale.

Allineamento con i vision experts

Un aspetto chiave è come questi token vengono collegati ai modelli di visione: gli autori distinguono tra modelli task-oriented (SAM, DepthAnything, PIDINet) e modelli representation-based (DINOv2).

Per i modelli task-oriented, i CoVT tokens vengono proiettati nello spazio dei prompt dei decoder (prompt-level alignment): ogni token agisce come un prompt che il decoder trasforma in una predizione densa (maschera, mappa di profondità, mappa di bordi), supervisionata con loss appropriate (per esempio, combinazioni di dice/focal loss o L1).
Per i modelli representation-based, i token vengono mappati nello spazio delle feature dell'encoder e allineati tramite loss sulle feature (ad esempio MSE tra feature proiettate e feature di DINOv2).

Gli ablation study mostrano che questo allineamento tramite decoder per i modelli densi è più efficace del semplice match di feature grezze, soprattutto per segmentazione e profondità.

Training recipe a quattro fasi

Per evitare di "rompere" le abilità linguistiche del VLM e introdurre gradualmente il ragionamento visivo, gli autori propongono una pipeline in quattro stadi di data formatting e training.

Comprehension stage: si inseriscono i visual tokens subito dopo il tag immagine (<image>) in modo che il VLM impari la semantica base di questi token senza ancora doverli generare autonomamente.
Generation stage: il modello viene esplicitamente incoraggiato a generare i visual tokens corretti quando richiesto, collegandoli ai target dei vision experts.
Reasoning stage: si introduce il formato completo di Chain-of-Visual-Thought, in cui i visual tokens compaiono all'interno di blocchi di "..." prima della risposta finale, e il modello impara a sfruttarli per arrivare alla soluzione.
Efficient reasoning stage: si applica dropout casuale su alcuni tipi di visual tokens per insegnare al modello a ragionare anche con informazioni visive parziali e rendere la catena più robusta e flessibile.

Dal punto di vista delle impostazioni, CoVT viene addestrato principalmente con LoRA fine-tuning su VLM esistenti (ad esempio Qwen2.5-VL-7B), con rank moderato e learning rate diversi per LoRA e per gli strati di proiezione che collegano i token visivi ai decoder/encoder.

Risultati di CoVT: guida completa ai benchmark

Gli autori valutano CoVT su un ampio spettro di benchmark vision-centric (come CV-Bench, BLINK, RealWorldQA, MMVP, MMStar, V* Bench, HRBench) e anche su benchmark non vision-centric (OCRBench, MME, MUIRBench, A-OKVQA, WeMATH, WorldMedQA, ecc.).

Miglioramenti sui task di percezione fine

Su CV-Bench, che include sotto-task come Count, Depth e Distance, CoVT ottiene un guadagno complessivo di circa +5.5 punti percentuali rispetto al baseline Qwen2.5-VL-7B, con un impressionante +14 punti sul sotto-task di profondità quando si usano tre tipi di visual tokens (Segmentation, Depth, DINO). Risultati simili si osservano su HRBench (scene ad alta risoluzione) e su benchmark real-world come MME-RealWorld, dove CoVT porta miglioramenti di alcuni punti percentuali mantenendo stabile la performance sugli altri sotto-task.

Una sintesi di alcuni numeri chiave (Qwen2.5-VL-7B vs CoVT con 3 visual tokens):

Benchmark / metrica	Baseline Qwen2.5-VL-7B	CoVT (Seg+Depth+DINO)	Variazione
CV-Bench (overall)	74.5%	80.0%	+5.5
CV-Bench - Depth sub-task	72.8%	86.8%	+14.0
HRBench 8K	64.9%	69.4%	+4.5
MME-RealWorld (visione nel mondo reale)	60.0%	63.7%	+3.7

Ogni tipo di CoVT token tende a contribuire di più sui task per cui è stato pensato: per esempio i Segmentation tokens aiutano il counting e il localization, i Depth tokens migliorano la stima di profondità e distanza, e i DINO tokens supportano la comprensione semantica globale.

Confronto con Aurora e impatto sui task non visivi

Su setup basati su LLaVA-v1.5-13B, CoVT viene confrontato con Aurora, un metodo basato su latenti di profondità e detection; CoVT con Depth tokens supera Aurora-depth di oltre 12 punti sul sotto-task di relative depth in BLINK, e CoVT con Segmentation tokens migliora di oltre 20 punti rispetto ad Aurora-count sul counting di BLINK. Questo indica che l'uso di continuous visual tokens ben allineati può fornire segnali percettivi più forti e più facili da sfruttare dal VLM rispetto alle latenti VQ-VAE usate da Aurora.

Importante: nonostante l'enfasi sulla percezione, CoVT rimane competitivo o leggermente migliore anche su benchmark non vision-centric (per esempio test di ragionamento testuale, OCR e question answering generale), con un piccolo miglioramento medio (circa +1-2%) su otto benchmark non visivi. Questo suggerisce che introdurre una catena di visual thoughts non sacrifica la capacità linguistica del modello, se il training curriculum è ben progettato.

Concetti chiave da capire prima di leggere il paper

Per capire a fondo il paper, è utile avere chiari alcuni concetti fondamentali che ricorrono in tutta la discussione.

Vision-Language Model (VLM): un modello che combina un encoder di immagini (o video) con un backbone di tipo Large Language Model; l'immagine viene convertita in token visivi che il modello usa insieme ai token di testo per generare risposte.
Chain-of-Thought (CoT) testuale: tecnica in cui il modello esplicita una sequenza di passi di ragionamento in linguaggio naturale; funziona bene per logica, matematica e domande conoscitive, ma è poco adatta a ragionare su geometria continua, profondità e layout 2D/3D perché costringe la visione dentro un collo di bottiglia testuale.
Chain-of-Visual-Thought (CoVT): estende l'idea di CoT ai pensieri visivi continui: invece di produrre solo frasi, il modello produce anche blocchi di continuous visual tokens che sintetizzano ciò che "vede" (maschere, profondità, bordi, feature) lungo la catena di ragionamento.
Continuous visual tokens: vettori latenti densi, di piccola dimensione, che codificano informazione percettiva; a differenza dei token di testo (discreti), questi rappresentano direttamente quantità continue come profondità per pixel o attivazioni di feature map, e vengono distillati da vision experts.
Vision experts (SAM, DepthAnything, PIDINet, DINOv2): modelli pre-addestrati specializzati che forniscono "ground truth" per l'allineamento dei CoVT tokens; CoVT non li usa a inference-time, ma solo durante il training per trasferire la loro competenza percettiva nel VLM.
Allineamento prompt-level vs feature-level: per i task che producono output densi espliciti (segmentazione, profondità, bordi), i tokens vengono usati come prompt di decoder e supervisionati sugli output; per i task di rappresentazione (DINO), i tokens vengono direttamente confrontati con feature interne del modello di visione.

Capire questi elementi rende molto più leggibile la sezione 3 del paper (descrizione dell'architettura CoVT) e le ablation studies, dove gli autori confrontano diverse scelte di token, numeri di token e strategie di allineamento.

Quiz su Chain-of-Visual-Thought (domande e risposte)

Qual è il limite principale dei VLM che CoVT cerca di risolvere?

I VLM tradizionali proiettano le immagini in uno spazio di token testuali, perdendo gran parte delle informazioni continue come profondità, bordi e layout 2D/3D; questo rende difficile affrontare compiti di percezione fine come counting preciso, stima di profondità e ragionamento geometrico. CoVT affronta questo limite introducendo continuous visual tokens che mantengono queste informazioni nel processo di ragionamento, senza doverle prima trasformare in testo.

Che cosa sono in pratica i continuous visual tokens in CoVT?

Sono vettori latenti compatti che il VLM genera nella sua catena interna di pensiero e che possono essere decodificati in output visivi densi (maschere, mappe di profondità, edge map, feature map) tramite piccoli decoder addestrati a imitare modelli esperti come SAM, DepthAnything, PIDINet e DINOv2. Dal punto di vista del modello, sono token al pari di quelli testuali, ma con un significato percettivo preciso e supervisionato, non semplici embedding "vuoti".

Perché CoVT usa più tipi di token (Segmentation, Depth, Edge, DINO) invece di uno solo?

Perché la percezione visiva richiede segnali complementari: le maschere di segmentazione codificano oggetti e istanze, la profondità fornisce struttura 3D, i bordi definiscono geometria locale e contorni, e le feature DINOv2 racchiudono informazione semantica ad alto livello. Gli ablation study mostrano che ogni famiglia di token porta benefici specifici sui task corrispondenti (per esempio Depth tokens per i task di profondità, Segmentation tokens per counting e localization), e che usare solo un tipo riduce le prestazioni rispetto alla combinazione bilanciata.

Che differenza c'è tra CoVT e sistemi tool-augmented che chiamano modelli esterni?

Nei sistemi tool-augmented, il VLM chiama modelli di visione separati (per esempio un segmentatore o un depth estimator) durante l'inferenza, aumentando latenza, costo computazionale e complessità ingegneristica; inoltre la qualità della percezione è limitata dalla qualità dei singoli tool. CoVT, invece, usa i vision experts solo in training per supervisionare i visual tokens, poi a inference-time ragiona in modo self-contained nello spazio latente, senza dipendere da tool esterni, mantenendo efficienza e semplicità di deployment.

CoVT peggiora la capacità linguistica del modello?

Secondo gli esperimenti del paper, no: su otto benchmark non vision-centric (inclusi test di ragionamento testuale e OCR), CoVT è mediamente leggermente migliore del baseline, con un miglioramento aggregato intorno all'1-2%, segno che l'introduzione di visual tokens e del curriculum in quattro fasi non danneggia le abilità linguistiche del VLM. Gli autori mostrano anche che una semplice Chain-of-Thought solo testuale, applicata agli stessi dati, può addirittura degradare le prestazioni su task visivi, mentre CoVT le migliora sistematicamente.

Studi correlati su Chain-of-Visual-Thought e continuous visual tokens

Il paper posiziona CoVT all'interno di un panorama più ampio di lavori su visual reasoning multimodale e latent reasoning.

VCoT e MCoT: metodi che estendono Chain-of-Thought alla modalità visiva generando descrizioni testuali dense o immagini intermedie durante il ragionamento; VCoT si affida a interpretazioni testuali delle immagini, mentre MCoT genera o modifica immagini, ma con costi computazionali maggiori e meno flessibilità.
VChain (Chain-of-Visual-Thought per video): un framework per video generation che usa grandi modelli multimodali (es. GPT-4o) per creare una sequenza di keyframe causali chiamata Chain-of-Visual-Thought, poi usata per guidare un video generator pre-addestrato tramite tuning a tempo di inference. A differenza di CoVT, VChain lavora a livello di generazione video e si appoggia esplicitamente a un LMM esterno per produrre i "visual thoughts".
Aurora: un metodo che usa latenti di depth e detection (da VQ-VAE) per potenziare il ragionamento visivo, soprattutto sul counting e sulla percezione 3D; CoVT supera Aurora quando entrambi sono implementati sullo stesso backbone (LLaVA), grazie a un allineamento più mirato dei continuous visual tokens.
Latent reasoning in LLM (Coconut, CCoT, ecc.): lavori che mostrano come comprimere la Chain-of-Thought testuale in embedding continui (compressed CoT) possa essere più efficiente e talvolta più robusto di una CoT esplicita tutta in linguaggio; CoVT si ispira a questa idea ma la estende alla dimensione visiva, legando i token continui a specifiche abilità percettive.

Nel complesso, CoVT si distingue perché è il primo framework a combinare in modo sistematico: reasoning in spazio visivo continuo, uso di segnali percettivi densi (segmentazione, profondità, bordi, feature semantiche), consapevolezza 3D e assenza di tool esterni, il tutto integrato in un VLM general-purpose tramite un training pipeline relativamente leggero.