LIVR: come i token latenti potenziano il ragionamento visivo negli LMM

Migliora il ragionamento visivo dei Large Multimodal Models tramite token latenti e bottleneck visivi, eliminando la necessità di supervisione esplicita.

LIVR: come i token latenti potenziano il ragionamento visivo negli LMM
Condividi:

In Latent Implicit Visual Reasoning (arxiv:2512.21218) viene presentato LIVR, un framework task-agnostic progettato per potenziare le capacità di astrazione visiva dei modelli multimodali. A differenza degli approcci tradizionali che richiedono annotazioni costose o "helper images", LIVR introduce dei latent tokens addestrati a catturare informazioni visive rilevanti attraverso un meccanismo di visual bottlenecking. Questo sistema costringe il modello a far transitare tutte le informazioni necessarie per la risposta attraverso questi token, permettendo la scoperta autonoma di ragionamenti visivi complessi senza supervisione esterna.

LIVR: Obiettivi di ricerca

  • È possibile per un LMM apprendere astrazioni visive complesse senza supervisione esplicita? Sì, LIVR dimostra che l'introduzione di token latenti dedicati, accoppiata a custom masking nel calcolo dell'attenzione, permette al modello di scoprire autonomamente come rappresentare internamente le caratteristiche visive necessarie al compito.
  • In che modo il visual bottlenecking previene il "leakage" informativo? Modificando la matrice di attention, il sistema impedisce ai token della risposta di accedere direttamente all'immagine originale, forzandoli a utilizzare esclusivamente le informazioni filtrate e processate dai latent tokens.
  • LIVR è più efficace del semplice fine-tuning diretto? Sì, i test su nove task ad alta densità percettiva mostrano miglioramenti medi compresi tra il 3.43% e il 6.24% rispetto al Supervised Fine-Tuning (SFT) tradizionale, grazie a una migliore capacità di astrazione.

LIVR: Cosa ne pensa Mauro?

  • Novità: 2.5/5. Seppur altri paper hanno provato ad usare latents continui (ILVR, Mirage, LVR), l'approccio è originale poichè semplicemente forza la rete a non "dare conto" ai token originali dell'immagine, ma solo alle controparti latenti.
  • Chiarezza: 4/5. Il paper è scritto in modo rigoroso e la suddivisione in due fasi di addestramento rende il processo logico facile da seguire per chi ha familiarità con le architetture transformer.
  • Riproducibilità: 4/5. Gli autori utilizzano backbone pubblici come Qwen3-VL e LLaVA-OneVision. Sebbene il codice non sia ancora disponibile nel momento della stesura, la descrizione dei meccanismi di masking e degli iperparametri è sufficientemente dettagliata.
  • Costi: 4/5. La tecnica utilizza LoRA per il fine-tuning della componente language, mantenendo congelati il vision encoder e il projector. Questo rende il metodo riproducibile anche per ricercatori indipendenti con un setup mono GPU per i modelli da 3B o 4B parametri.

LIVR: Metodi e Tecniche

LIVR si basa sull'integrazione di componenti strutturali e una strategia di addestramento a due fasi che massimizza l'efficacia dei token latenti.

Latent Tokens e Inizializzazione

Il modello viene equipaggiato con KK nuovi token speciali, indicati come L=l1,l2,,lKL = {l_1, l_2, \dots, l_K}, aggiunti al vocabolario esistente VV. Questi token sono inizializzati casualmente e le loro righe nella embedding table rimangono "unfrozen" durante l'addestramento. A differenza dei token di testo, l'LMM non deve imparare a generarli in output, ma solo a utilizzarli come spazio di calcolo intermedio.

Visual Bottlenecking e Meccanismo di Attention

Il cuore della tecnica è la modifica della maschera di attention per creare un "collo di bottiglia". Durante la prima fase di addestramento, i token della risposta AA non possono vedere i token dell'immagine II.

Pseudo-codice logico per la maschera di attention:

def livr_attention_mask(q_tokens, l_tokens, i_tokens, a_tokens):
    # Masking logic for Stage 1
    mask = torch.ones(total_len, total_len)
    
    # Answer tokens 'a' cannot see Image tokens 'i'
    mask[a_indices, i_indices] = 0 
    
    # Prompt tokens 'q' cannot see Image tokens 'i'
    mask[q_indices, i_indices] = 0
    
    # Latent tokens 'l' CAN see Image tokens 'i' and Prompt 'q'
    mask[l_indices, i_indices] = 1
    mask[l_indices, q_indices] = 1
    
    return mask

Stage-wise Training

L'addestramento avviene in due momenti distinti per stabilizzare l'apprendimento delle rappresentazioni latenti.

Stage 1 (Bottleneck training): Si ottimizza la perdita di verosimiglianza (Negative Log-Likelihood) solo sui token della risposta, mantenendo il bottleneck attivo:

L=tlogP(atQ,L,Imasked)\mathcal{L} = -\sum_{t} \log P(a_t | Q, L, I_{\text{masked}})

Stage 2 (Refinement): Si ripristina la maschera di attention standard, permettendo al modello di utilizzare sia i token dell'immagine originale che le rappresentazioni arricchite nei token latenti.

LIVR: Dataset

Il lavoro utilizza una selezione di 9 task provenienti dal benchmark BLINK, specificamente scelti per la loro natura "perception-heavy":

  • Counting (conteggio oggetti)
  • Jigsaw (ricomposizione immagini)
  • Object Localization (localizzazione)
  • Visual/Semantic Correspondence (corrispondenze visive e semantiche)
  • Art Style Classification
  • Functional Correspondence
  • Relative Reflectance
  • Visual Similarity

Questi dataset sono ideali perché richiedono una comprensione spaziale e di dettaglio che i modelli puramente testo-centrici faticano a gestire.

LIVR: Licenze

Il paper e i materiali correlati sono rilasciati sotto licenza CC BY 4.0, che permette la condivisione e l'adattamento del lavoro citando opportunamente la fonte.

LIVR FAQs

Mauro Sciancalepore - Notizie AI, Deep Learning e Ricerca

Resta aggiornato sulle ultime notizie di Intelligenza Artificiale e Deep Learning. Approfondimenti completi sulla ricerca e stato dell'arte.

© 2026 mauroscia.it
Tutti i diritti riservati.