Perché i token sono definiti "latenti"?

Sono latenti perché non hanno una corrispondenza diretta con parole o concetti del linguaggio naturale. Operano interamente nello spazio degli embedding continui del modello per servire come "memoria di lavoro visiva".

Quanti token latenti sono necessari per ottenere risultati ottimali?

Il paper suggerisce che esiste un bilanciamento tra espressività e apprendibilità; un numero troppo basso limita la capacità di astrazione, mentre un numero eccessivo rende l'addestramento instabile. Il valore ottimale di è stato identificato sperimentalmente dagli autori (intorno a poche decine di token).

LIVR richiede dati di addestramento aggiuntivi?

No, il framework è task-agnostic e utilizza i dati già presenti nei dataset di instruction tuning o specifici per il task, semplicemente modificando il modo in cui il modello "guarda" l'immagine durante il processo di apprendimento.

Deep Learning

LIVR: come i token latenti potenziano il ragionamento visivo negli LMM

Migliora il ragionamento visivo dei Large Multimodal Models tramite token latenti e bottleneck visivi, eliminando la necessità di supervisione esplicita.

27 dicembre 2025

In Latent Implicit Visual Reasoning (arxiv:2512.21218) viene presentato LIVR, un framework task-agnostic progettato per potenziare le capacità di astrazione visiva dei modelli multimodali. A differenza degli approcci tradizionali che richiedono annotazioni costose o "helper images", LIVR introduce dei latent tokens addestrati a catturare informazioni visive rilevanti attraverso un meccanismo di visual bottlenecking. Questo sistema costringe il modello a far transitare tutte le informazioni necessarie per la risposta attraverso questi token, permettendo la scoperta autonoma di ragionamenti visivi complessi senza supervisione esterna.

LIVR: Obiettivi di ricerca

È possibile per un LMM apprendere astrazioni visive complesse senza supervisione esplicita? Sì, LIVR dimostra che l'introduzione di token latenti dedicati, accoppiata a custom masking nel calcolo dell'attenzione, permette al modello di scoprire autonomamente come rappresentare internamente le caratteristiche visive necessarie al compito.
In che modo il visual bottlenecking previene il "leakage" informativo? Modificando la matrice di attention, il sistema impedisce ai token della risposta di accedere direttamente all'immagine originale, forzandoli a utilizzare esclusivamente le informazioni filtrate e processate dai latent tokens.
LIVR è più efficace del semplice fine-tuning diretto? Sì, i test su nove task ad alta densità percettiva mostrano miglioramenti medi compresi tra il 3.43% e il 6.24% rispetto al Supervised Fine-Tuning (SFT) tradizionale, grazie a una migliore capacità di astrazione.

LIVR: Cosa ne pensa Mauro?

Novità: 2.5/5. Seppur altri paper hanno provato ad usare latents continui (ILVR, Mirage, LVR), l'approccio è originale poichè semplicemente forza la rete a non "dare conto" ai token originali dell'immagine, ma solo alle controparti latenti.
Chiarezza: 4/5. Il paper è scritto in modo rigoroso e la suddivisione in due fasi di addestramento rende il processo logico facile da seguire per chi ha familiarità con le architetture transformer.
Riproducibilità: 4/5. Gli autori utilizzano backbone pubblici come Qwen3-VL e LLaVA-OneVision. Sebbene il codice non sia ancora disponibile nel momento della stesura, la descrizione dei meccanismi di masking e degli iperparametri è sufficientemente dettagliata.
Costi: 4/5. La tecnica utilizza LoRA per il fine-tuning della componente language, mantenendo congelati il vision encoder e il projector. Questo rende il metodo riproducibile anche per ricercatori indipendenti con un setup mono GPU per i modelli da 3B o 4B parametri.

LIVR: Metodi e Tecniche

LIVR si basa sull'integrazione di componenti strutturali e una strategia di addestramento a due fasi che massimizza l'efficacia dei token latenti.

Latent Tokens e Inizializzazione

Il modello viene equipaggiato con $K$ nuovi token speciali, indicati come $L = {l_1, l_2, \dots, l_K}$ , aggiunti al vocabolario esistente $V$ . Questi token sono inizializzati casualmente e le loro righe nella embedding table rimangono "unfrozen" durante l'addestramento. A differenza dei token di testo, l'LMM non deve imparare a generarli in output, ma solo a utilizzarli come spazio di calcolo intermedio.

Visual Bottlenecking e Meccanismo di Attention

Il cuore della tecnica è la modifica della maschera di attention per creare un "collo di bottiglia". Durante la prima fase di addestramento, i token della risposta $A$ non possono vedere i token dell'immagine $I$ .

Pseudo-codice logico per la maschera di attention:

def livr_attention_mask(q_tokens, l_tokens, i_tokens, a_tokens):
    # Masking logic for Stage 1
    mask = torch.ones(total_len, total_len)
    
    # Answer tokens 'a' cannot see Image tokens 'i'
    mask[a_indices, i_indices] = 0 
    
    # Prompt tokens 'q' cannot see Image tokens 'i'
    mask[q_indices, i_indices] = 0
    
    # Latent tokens 'l' CAN see Image tokens 'i' and Prompt 'q'
    mask[l_indices, i_indices] = 1
    mask[l_indices, q_indices] = 1
    
    return mask

Stage-wise Training

L'addestramento avviene in due momenti distinti per stabilizzare l'apprendimento delle rappresentazioni latenti.

Stage 1 (Bottleneck training): Si ottimizza la perdita di verosimiglianza (Negative Log-Likelihood) solo sui token della risposta, mantenendo il bottleneck attivo:

\mathcal{L} = -\sum_{t} \log P(a_t | Q, L, I_{\text{masked}})

Stage 2 (Refinement): Si ripristina la maschera di attention standard, permettendo al modello di utilizzare sia i token dell'immagine originale che le rappresentazioni arricchite nei token latenti.

LIVR: Dataset

Il lavoro utilizza una selezione di 9 task provenienti dal benchmark BLINK, specificamente scelti per la loro natura "perception-heavy":

Counting (conteggio oggetti)
Jigsaw (ricomposizione immagini)
Object Localization (localizzazione)
Visual/Semantic Correspondence (corrispondenze visive e semantiche)
Art Style Classification
Functional Correspondence
Relative Reflectance
Visual Similarity

Questi dataset sono ideali perché richiedono una comprensione spaziale e di dettaglio che i modelli puramente testo-centrici faticano a gestire.

LIVR: Licenze

Il paper e i materiali correlati sono rilasciati sotto licenza CC BY 4.0, che permette la condivisione e l'adattamento del lavoro citando opportunamente la fonte.

LIVR FAQs