TUNA: guida completa alle novità del modello unified multimodal di Meta

4 dicembre 2025

Di cosa parla il paper TUNA, perché è una novità e quali risultati presenta

Il paper "TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models" introduce TUNA, una nuova famiglia di unified multimodal models (UMMs) sviluppata da Meta. L'obiettivo è ambizioso: usare un unico modello per fare sia multimodal understanding (per esempio rispondere a domande su immagini e video) sia multimodal generation (generare immagini, video ed eseguire image editing) in modo nativo, senza incollare insieme modelli separati.

La parola chiave del lavoro è unified visual representation. In quasi tutti i sistemi attuali, le rappresentazioni visive usate per capire le immagini e quelle usate per generarle sono diverse: un encoder tipo CLIP o SigLIP per l'understanding, un VAE o un tokenizer discreto per la generazione. Questo crea un modello "composito", con parti diverse che si parlano tramite connettori, con costi di addestramento e inferenza più alti e, spesso, comportamenti non del tutto coerenti tra comprensione e generazione. TUNA, invece, punta a un solo spazio di rappresentazione visiva continuo, condiviso tra tutti i task.

Per arrivare a questo spazio unico, gli autori definiscono due componenti: un 3D causal VAE encoder (preso da Wan 2.2) che trasforma immagini e video in latents continui, e un representation encoder SigLIP 2 modificato per lavorare direttamente su questi latents. Il risultato è una rappresentazione che ha sia la ricchezza semantica tipica di un encoder come CLIP/SigLIP, sia le proprietà geometriche favorevoli alla generazione, tipiche di un VAE.

Tutto questo viene poi collegato a un LLM decoder Qwen2.5-Instruct (in due varianti, 1.5B e 7B parametri), che usa attenzione causale sul testo e attenzione bidirezionale sui token visivi. Per i task di understanding, il decoder produce testo in modo autoregressivo. Per i task di generazione, gli stessi token, arricchiti da rumore e da un timestep token, vengono passati a un flow matching head che implementa una forma di latent diffusion per immagini e video. In pratica, nello stesso modello convivono una head autoregressiva per il testo e una head diffusion per il contenuto visivo.

Sul fronte delle novità TUNA, il paper sottolinea tre punti principali. Primo, dimostra che costruire un unified visual representation a partire da continuous VAE latents e da un representation encoder potente permette di avere un solo spazio visivo efficace sia per capire che per generare. Secondo, mostra che la scelta di una training pipeline in tre fasi è cruciale per far funzionare bene tutto il sistema, allineando pian piano encoder, LLM decoder e flow matching head. Terzo, grazie a una serie ampia di esperimenti e ablation study, evidenzia come questo design superi sia i native UMM precedenti con unified representations, sia i modelli con rappresentazioni decoupled come BAGEL o Mogao.

Dal punto di vista dei risultati, TUNA viene valutato su nove benchmark di image understanding (tra cui MME, GQA, RealWorldQA, SEED-Bench, MMMU, MMStar, AI2D, ChartQA, OCRBench) e su diversi benchmark di image generation (GenEval, DPG-Bench, OneIG-Bench). I numeri mostrano che sia TUNA 1.5B sia TUNA 7B raggiungono o superano lo stato dell'arte tra i native unified multimodal models a pari scala, arrivando per esempio a circa 61,2% su MMStar e a 0,90 su GenEval per la variante 7B. In più, la qualità con cui il modello rende il testo nelle immagini (per esempio nelle valutazioni di OneIG-Bench) indica che la componente semantica della rappresentazione visiva è effettivamente molto forte.

Per chi cerca una "TUNA guida completa" alle basi del paper: l'idea centrale è che non bisogna più scegliere se ottimizzare un modello per capire o per generare contenuti visivi. Grazie alla cascata VAE + representation encoder e a un training congiunto ben progettato, TUNA prova che è possibile avere un unico spazio visivo continuo, efficiente e scalabile per immagini e video, che alimenta sia il lato autoregressivo (testo) sia quello diffusion (generazione visiva).

Alla fine di questa sezione, ecco i link pratici promessi, così non devi cercarli in giro. Il repository GitHub di TUNA, al momento con codice sotto revisione legale, è disponibile qui: TUNA GitHub repo. Il paper su arXiv si trova a questo indirizzo: TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models. Un dataset TUNA dedicato non è stato rilasciato pubblicamente; il modello è addestrato su una combinazione di dataset esistenti per captioning, instruction-following, image/video generation e image editing, ma non esiste un singolo dataset con URL pubblico da scaricare, quindi è corretto dire che il link al dataset non è disponibile.

Come funziona TUNA: approccio, architettura e training recipe

Per capire davvero come funziona TUNA conviene partire dalla distinzione tra due famiglie di modelli. Da una parte ci sono i composite unified multimodal models, che collegano un modello di understanding e uno di generazione tramite connettori. Dall'altra ci sono i native unified multimodal models, dove un solo modello viene pre-addestrato congiuntamente su obiettivi di comprensione e generazione. TUNA appartiene a questa seconda categoria.

Gli autori osservano che finora i native UMM hanno avuto un problema di fondo: o usavano solo un VAE (o VQ-VAE) per tutto, favorendo la generazione ma sacrificando parte della capacità di capire le scene, oppure usavano solo un representation encoder tipo CLIP, ottimo per la semantica ma meno adatto a generare immagini e video ad alta fedeltà. Modelli come Chameleon, Transfusion o Harmon incarnano queste diverse scelte estreme, e spesso finiscono per privilegiare un tipo di task a scapito dell'altro.

TUNA segue una strada diversa: costruisce il suo unified visual representation sopra i latents di un 3D causal VAE e poi passa questi latents attraverso un SigLIP 2 vision encoder opportunamente adattato. In pratica, l'immagine o il video viene prima compresso dal VAE in un tensore di latents continui, riducendo la risoluzione spaziale e temporale ma mantenendo le informazioni visive importanti. Poi, anziché tornare nello spazio pixel o usare un tokenizer discreto, questi latents vengono trattati come se fossero "immagini" su cui l'encoder SigLIP 2 estrae feature semantiche. Per farlo, gli autori sostituiscono il patch embedding originale di SigLIP 2 con una versione compatibile con il downsampling del VAE, e usano infine un piccolo MLP connector a due layer per ottenere i token finali che costituiscono il unified visual representation.

Il cuore del modello è un LLM decoder Qwen2.5-Instruct, disponibile in due taglie, circa 1.5B e 7B parametri. Questo decoder riceve in input la sequenza dei token testuali (prompt, istruzioni, domande) affiancata ai token visivi provenienti dal unified visual representation. Nel decoder si usa un attenzione causale sui token di testo, come nei normali LLM, e una attenzione bidirezionale sui token visivi, in modo che i token dell'immagine o del video possano guardarsi a vicenda senza vincoli di causalità. L'insieme testo+visione viene posizionato in uno spazio comune tramite multimodal 3D-RoPE, una variante di Rotary Position Embedding che tiene conto di tempo, spazio e posizione nella sequenza.

Per i task di multimodal understanding, il workflow è relativamente semplice: i token visivi vengono inseriti "puliti", senza rumore, nel decoder. Alla fine, un language modeling head predice i token di output (risposte, caption, spiegazioni, ecc.) in modo autoregressivo, come in un normale LLM.

Per i task di image e video generation (incluso image editing), la storia è un po' più articolata. In questo caso, i latents prodotti dal VAE vengono noisificati secondo uno schedule tipico dei modelli diffusion o flow matching. Il unified visual representation viene quindi costruito a partire da questi latents noised, e insieme ai token di testo viene passato a un flow matching head che condivide l'architettura del decoder LLM ma è inizializzato separatamente. Questo head impara a prevedere la "velocità" nel processo di flow matching, cioè il modo in cui il latent deve muoversi nel tempo per trasformarsi da rumore a immagine o video coerente con il prompt. La condizione temporale viene iniettata tramite AdaLN-Zero, seguendo la linea di lavori come Show-o2 e DiT.

Una parte importante dell'ingegneria riguarda la gestione dei video. L'encoder VAE produce latents 3D (tempo, altezza, larghezza). Se si appiattissero tutti i frame in una sola sequenza di token, la lunghezza esploderebbe. Per evitarlo, TUNA usa una strategia di window-based attention: i frame vengono raggruppati in finestre temporali (per esempio gruppi di quattro frame) e l'encoder di rappresentazione lavora in modo indipendente su ogni finestra, riducendo drasticamente la lunghezza effettiva della sequenza e quindi i costi di calcolo.

Tutto questo è supportato da una training recipe in tre fasi. Nella prima fase, gli autori pre-addestrano il representation encoder e il flow matching head su due obiettivi: image captioning e text-to-image generation, mantenendo congelato il decoder LLM. Questo allinea il unified visual representation sia con la semantica testuale sia con la dinamica di generazione. Nella seconda fase, sbloccano il decoder e continuano il pretraining end-to-end, ripetendo gli stessi obiettivi e aggiungendo progressivamente image instruction-following, image editing e video captioning. Infine, nella terza fase, eseguono una supervised fine-tuning (SFT) su un corpus curato di dati ad alta qualità per instruction-following, image/video editing e generazione, con un learning rate più basso per rifinire la capacità del modello senza destabilizzarlo.

Un dettaglio curioso è che, per ragioni di costo computazionale, la variante TUNA 7B viene addestrata senza video data nella fase finale, mentre la 1.5B utilizza anche video. Nonostante questo, la 7B mantiene ottime prestazioni su compiti di video understanding, grazie al fatto che l'architettura è già progettata in modo nativamente multimodale.

In sintesi, se vuoi una frase breve per ricordare "come funziona TUNA": il modello prende immagini e video, li comprime con un 3D causal VAE, estrae feature semantiche con un SigLIP 2 encoder per ottenere un unified visual representation continuo, e poi usa un LLM decoder Qwen2.5 che, a seconda del task, genera solo testo in modo autoregressivo oppure controlla un flow matching head per creare o modificare contenuti visivi. Tutto è addestrato congiuntamente in tre fasi per tenere insieme, in modo stabile, comprensione e generazione.

Risultati di TUNA nel dettaglio

La sezione dei risultati è il punto in cui il paper mostra davvero perché TUNA rappresenti una novità concreta nel panorama dei unified multimodal models. Gli autori confrontano TUNA sia con modelli di sola comprensione (come LLaVA-1.5, Qwen-VL-Chat, LLaVA-OV), sia con composite UMM (Tar, BLIP3-o, X-Omni) e con altri native UMM come Show-o, Show-o2, Janus-Pro, Harmon, SynerGen-VL.

Sui benchmark di image understanding, TUNA viene valutato su nove dataset eterogenei. Alcuni sono più generici, come MME, GQA, RealWorldQA e SEED-Bench, che misurano la capacità di rispondere a domande su immagini e scene reali. Altri sono più "knowledge-intensive", come MMMU e MMStar, che testano competenze su materie scolastiche e domande multi-step. Infine, ci sono benchmark orientati al testo nelle immagini, come AI2D, ChartQA e OCRBench, che richiedono di leggere diagrammi, grafici e testo incorporato nelle immagini.

In questo scenario, sia TUNA 1.5B sia TUNA 7B si posizionano ai vertici dei native UMM alla stessa scala. La variante 1.5B supera Show-o, Harmon, Janus-Pro e Show-o2 su una media di benchmark, pur restando della stessa ordine di grandezza in termini di parametri. La 7B, invece, compete e spesso supera modelli come Janus-Pro 7B e Show-o2 7B, rimanendo vicina o superiore persino ad alcuni composite UMM più grandi. Questo è uno dei punti chiave della "novità TUNA": dimostrare che un unified visual representation ben progettato può reggere il confronto con architetture più complesse e pesanti.

Passando alla image generation, gli autori valutano TUNA su benchmark come GenEval, che misura in modo automatico la coerenza tra prompt e immagine generata; DPG-Bench, che valuta diversi aspetti globali e locali delle immagini; e OneIG-Bench, che si concentra sulla capacità di seguire istruzioni complesse con testo all'interno delle immagini. Su GenEval, la variante TUNA 7B raggiunge un punteggio intorno a 0,90, che è competitivo o superiore rispetto a modelli dedicati alla generazione e a UMM contemporanei come Janus-Pro, BAGEL e Mogao.

Un risultato particolarmente interessante riguarda la resa del testo nelle immagini. OneIG-Bench include categorie che misurano quanto bene il modello riesce a scrivere testo leggibile, corretto e semanticamente coerente sulle immagini generate. Qui TUNA mostra un vantaggio significativo rispetto ad altri native UMM, segno che il forte legame con il representation encoder semantico (SigLIP 2) e la training pipeline centrata su captioning e instruction-following aiutano davvero anche nella generazione.

Sulle metriche di image editing e video understanding/generation, il paper riporta risultati in linea con lo stato dell'arte, pur con il vincolo che TUNA 7B non ha subito un training video completo. In pratica, TUNA riesce a mantenere un buon equilibrio tra tutte le modalità: non sacrifica l'understanding per migliorare la generazione, né il contrario. È proprio questa simmetria di competenze che gli autori vogliono rivendicare come tratto distintivo del loro unified visual representation.

Messi insieme, i risultati suggeriscono che il design di TUNA non è solo elegante concettualmente, ma funziona davvero in pratica: con modelli di dimensione moderata (1.5B e 7B) si ottengono prestazioni da "top della classifica" su benchmark storicamente dominati da modelli molto più grandi o da pipeline composite. Per chi cerca un riferimento aggiornato su "novità unified multimodal model", TUNA entra subito nella lista corta dei lavori da tenere d'occhio.

Concetti chiave da capire per leggere il paper TUNA

Per godersi davvero il paper, ci sono alcuni concetti che vale la pena avere chiari in anticipo. Questa sezione è pensata come una mini "guida completa" ai termini più importanti.

Un primo concetto è quello di unified multimodal model (UMM). Si tratta di un modello che gestisce in modo nativo più modalità (testo, immagini, video) e più tipi di task (understanding e generation) all'interno di un'unica architettura e, idealmente, di un unico spazio di rappresentazione. In un UMM ideale, lo stesso token visivo può servire sia per rispondere a una domanda su un'immagine, sia per generare una variante della stessa immagine o un video coerente.

Collegato a questo c'è il contrasto tra composite UMM e native UMM. I composite UMM sono costruiti combinando un LMM per l'understanding e un generatore (per esempio un diffusion model) tramite connettori e moduli ausiliari. I native UMM, invece, come TUNA o Show-o2, cercano di addestrare un unico modello end-to-end su obiettivi di comprensione e generazione, con meno "colle" tra blocchi diversi. TUNA appartiene chiaramente alla seconda categoria e il paper sostiene che, con la giusta unified visual representation, questa strada paga.

Un altro concetto fondamentale è la differenza tra continuos VAE latents e discrete tokens. Nei modelli di generazione, un VAE (Variational Autoencoder) impara a comprimere un'immagine in un vettore continuo di dimensione ridotta, da cui poi è possibile ricostruire l'immagine stessa. Questi latents sono perfetti per modelli diffusion o flow matching, perché è più facile modellare distribuzioni continue che discrete. Al contrario, tokenizer discreti (come quelli usati in alcuni modelli autoregressivi per immagini) trasformano l'immagine in una sequenza di simboli discreti, più vicina al mondo del testo ma spesso meno fedele e più difficile da gestire per video lunghi. Il paper mostra che i latents continui del VAE sono una base molto naturale per un unified visual representation in un contesto multimodale.

Accanto al VAE c'è il ruolo del representation encoder, in questo caso SigLIP 2. Un representation encoder è un modello addestrato per estrarre feature semantiche da immagini, di solito tramite obiettivi contrastivi o di captioning. Queste feature sono ottime per compiti di understanding perché catturano concetti ad alto livello: oggetti, relazioni, testi, layout. Il punto di TUNA è di non scegliere tra "VAE per generare" e "SigLIP per capire", ma di usarli in cascata: prima il VAE produce latents geometricamente ben strutturati, poi SigLIP 2 li arricchisce con semantica. Così, il unified visual representation eredita il meglio di entrambi i mondi.

Molto importante è anche il concetto di flow matching. Anche se il paper non si dilunga sulla teoria matematica, è utile ricordare che flow matching è una formulazione alternativa alla diffusione tradizionale, in cui si impara un campo di velocità che trasforma distribuzioni semplici (per esempio rumore gaussiano) in distribuzioni complesse (immagini, video) lungo un percorso continuo. Nel contesto di TUNA, il flow matching head riceve token testuali e visivi noised, e deve predire come questi latents dovrebbero "muoversi" nel tempo per diventare un'immagine o un video coerente con il prompt. L'idea chiave da portarsi a casa è che, grazie a flow matching, la parte di generazione di TUNA rimane latente, continua e ben integrata con il unified visual representation.

Un'ultima nozione utile è quella di training pipeline in tre fasi. Molti lavori recenti su LLM e UMM usano pattern simili (pretraining generale, poi alignment, poi SFT), ma nel caso di TUNA la pipeline è particolarmente coerente con l'idea di unified representation. All'inizio si allineano representation encoder e flow head su captioning e text-to-image, poi si porta dentro il LLM decoder e si estende il ventaglio di task, e solo alla fine si rifinisce tutto con SFT su dati di alta qualità. Se durante la lettura del paper ti perdi, ricordare questa sequenza ti aiuta a dare un senso alla miriade di dataset e obiettivi menzionati.

Quiz su TUNA: domande e risposte

In che cosa TUNA è diverso da un composite unified multimodal model?

La differenza principale è che TUNA è un native unified multimodal model: viene addestrato end-to-end su obiettivi di comprensione e generazione all'interno di un'unica architettura e di un unico unified visual representation. Un composite UMM tipico collega invece un modello di understanding e un modello di generazione separati tramite connettori, mantenendo rappresentazioni diverse per i due mondi. TUNA elimina questo "doppio binario" e lavora in uno spazio visivo unico, costruito con VAE + SigLIP 2.

Perché gli autori scelgono di basarsi su continuous VAE latents invece che su token discreti?

Gli autori osservano che i modelli diffusion e flow matching hanno prestazioni migliori quando operano in spazi latenti continui, perché possono rappresentare variazioni sottili di colore, forma e struttura con più naturalezza. Inoltre, VAE come quello di Wan 2.2 sono già ottimizzati per ricostruire immagini e video ad alta fedeltà a partire dai loro latents. Allo stesso tempo, anche i modelli di understanding moderni, come CLIP o SigLIP, lavorano su feature continue. Di conseguenza, usare continuous VAE latents come base per il unified visual representation permette di servire bene sia la generazione sia l'understanding, senza dover tradurre continuamente tra spazi discreti e continui.

Qual è il ruolo di SigLIP 2 dentro TUNA?

SigLIP 2 funge da representation encoder semantico. In TUNA non lavora direttamente sui pixel, ma sui latents prodotti dal 3D causal VAE. La sua funzione è arricchire questi latents con informazioni ad alto livello: quali oggetti sono presenti, quali relazioni li legano, quale testo compare nell'immagine, quale struttura globale ha la scena. In questo modo, il unified visual representation combina la precisione geometrica del VAE con la ricchezza semantica di SigLIP 2. L'MLP connector che segue serve a proiettare queste feature in uno spazio adatto al LLM decoder.

Come viene addestrato il modello per conciliare understanding e generation?

La conciliazione avviene grazie a una training pipeline in tre fasi. Nella prima fase, con il decoder LLM congelato, si addestrano representation encoder e flow matching head su image captioning e text-to-image, così il unified visual representation impara contemporaneamente a supportare la comprensione (descrivere un'immagine) e la generazione (creare un'immagine da testo). Nella seconda fase, si sblocca il LLM decoder e si continua il pretraining end-to-end, aggiungendo dataset per instruction-following, image editing e video captioning. Nella terza fase, si fa supervised fine-tuning su un corpus SFT curato, per migliorare la qualità delle risposte e la robustezza del comportamento. Ogni fase spinge i diversi componenti del modello a lavorare sempre più in sinergia.

Perché TUNA usa attenzione causale per il testo e bidirezionale per i token visivi?

Il testo, essendo generato in modo autoregressivo, richiede attenzione causale: il modello deve predire ogni token successivo conoscendo solo quelli precedenti, non quelli futuri. I token visivi, invece, rappresentano l'intera immagine o clip video e non hanno una direzione naturale di lettura; è utile che possano "guardarsi" a vicenda in entrambe le direzioni per catturare contesti e strutture globali. Per questo TUNA adotta un attention mask ibrido, causale sul testo e bidirezionale sul visual, mantenendo così un comportamento da LLM classico per il testo e da encoder-style per la visione, all'interno dello stesso decoder.

Che cosa ci dicono le prestazioni di TUNA su MMStar e GenEval?

Le prestazioni su MMStar (circa 61,2% per la variante 7B) indicano che TUNA è molto forte sui task di multimodal understanding knowledge-intensive, dove bisogna ragionare su conoscenze di dominio, diagrammi e domande multi-step. Il punteggio intorno a 0,90 su GenEval ci dice invece che il modello è altrettanto forte nella image generation controllata, riuscendo a produrre immagini coerenti con il prompt, sia a livello globale sia nei dettagli. Messi insieme, questi risultati confermano che il unified visual representation di TUNA non è sbilanciato: supporta bene sia la "testa" di understanding sia la "testa" di generazione.

Studi correlati e altre ricerche su unified multimodal models

Il paper TUNA si inserisce in una linea di lavori molto attiva sui unified multimodal models. Per contestualizzarlo, vale la pena citare alcuni studi correlati che vengono discussi direttamente o indirettamente nel lavoro.

Un riferimento importante è la famiglia Show-o / Show-o2, che rappresenta una delle prime serie di native UMM a usare un 3D causal VAE come spazio visivo condiviso per immagini e video. Show-o2, in particolare, introduce un'architettura che combina autoregressive modeling e flow matching in un'unica struttura, costruendo unified visual representations attraverso una fusione dual-path spazio-tempo. Anche qui l'idea è unificare understanding e generation, ma Show-o2 non combina esplicitamente latents VAE con un representation encoder separato come SigLIP 2; TUNA prende ispirazione da Show-o2 sul piano della generazione, ma spinge più in là il tema della rappresentazione unificata.

Sul fronte dei modelli "compositi", lavori come BAGEL e Mogao dimostrano che si possono ottenere prestazioni eccellenti collegando grandi LLM di visione-linguaggio a generatori visivi specializzati, spesso tramite architetture MoE e connettori complessi. Questi modelli, però, pagano il prezzo di una maggiore complessità strutturale e di una separazione netta tra representation per understanding e representation per generazione. TUNA si propone esplicitamente come alternativa a questa filosofia, sostenendo che un unified visual representation continuo può rendere l'intero sistema più semplice, scalabile e coerente.

Altri lavori, come Chameleon o Transfusion, hanno esplorato l'uso di VQ-VAE o encoder generativi specifici come base per il unified space. In questi casi, si tende a favorire o la generazione ad alta fedeltà o la comprensione, ma raramente entrambe allo stesso livello. TUNA mostra che inserire un representation encoder semantico sopra il VAE è una chiave importante per non sacrificare la qualità dell'understanding.

Sul lato delle representations esistono lavori come REPA e RAE, che studiano come le feature di representation encoder tipo DINOv2 possano migliorare i modelli diffusion, o addirittura sostituire il VAE tradizionale per la ricostruzione delle immagini. TUNA prende idee simili - usare feature semantiche per rafforzare la generazione - ma le integra in un quadro più ampio, in cui lo stesso spazio visivo deve servi re sia il mondo diffusion sia il mondo autoregressivo del testo.

Infine, è utile menzionare lavori di survey come "Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities", che offrono una visione d'insieme delle varie linee di ricerca sul tema dei unified multimodal models. Questo tipo di panoramica colloca TUNA accanto a modelli come GPT-4o, OmniGen, Show-o, BAGEL, MUSE-VL e molti altri, mettendo in luce trend comuni come la convergenza verso spazi visivi unificati, la combinazione di autoregressive e diffusion, e l'importanza crescente di training recipe multi-fase e dataset multimodali curati.

Se mettiamo tutto insieme, TUNA appare come uno dei primi tentativi sistematici di gestire le unified visual representation in modo da non dover più scegliere tra comprensione e generazione. Per chi è interessato alle novità TUNA e, più in generale, alla direzione in cui stanno andando i grandi modelli multimodali, questo paper è una lettura fondamentale e può servire come punto di partenza per esplorare l'intera costellazione di lavori su unified multimodal models che lo circondano.