Architecture Decoupling e AIA: guida completa a come funziona la Attention Interaction Alignment nei Unified Multimodal Model

stato della ricerca deep learning

Di cosa parla il paper e perché è interessante: guida a AIA

Questo paper parte da una domanda molto concreta: è davvero necessario complicare sempre di più l’architettura dei Unified Multimodal Model (UMM) per farli andare bene sia in image generation sia in image understanding, oppure possiamo ottenere gran parte dei benefici solo cambiando il modo in cui li alleniamo?

Negli ultimi anni sono esplosi i modelli “any-to-any” che, con un’unica rete, sanno capire immagini, descriverle, rispondere a domande, e generare nuove immagini da testo. Esempi sono Emu3, Janus-Pro, BAGEL, e molti altri. Il sogno è avere un solo modello che faccia tutto, in modo coerente, interpretabile e con la possibilità di “vedere” cosa succede dentro la rete grazie all’interleaved generation (immagini generate passo passo mentre il modello ragiona).

Il problema è che, nella pratica, capire un’immagine e generarne una sono due compiti molto diversi. Per l’understanding servono rappresentazioni compatte, semantiche e stabili; per la generation servono rappresentazioni molto dettagliate, sensibili a texture, geometrie e stile. Se metti tutto dentro la stessa rete con la stessa architettura e la stessa loss, i due obiettivi andranno probabilmente in conflitto.

Per aggirare questo conflitto, tanti lavori recenti hanno puntato sull’architecture decoupling:
modelli con doppio image encoder, architetture MoE/MoT (Mixture of Experts / Mixture of Tasks), oppure setup con MLLM congelato e solo una diffusion head allenata per la generazione, come in MetaQuery, OmniGen2, UniWorld-V1 e Blip3-o. Queste soluzioni spesso migliorano le metriche, ma sacrificano la naturalezza del modello unificato: la generazione interleaved diventa più complicata, serve fare encode/decode aggiuntivo, e si perde parte dell’eleganza di avere un solo backbone veramente condiviso.

Il contributo chiave del paper è mostrare che l’architecture decoupling non risolve davvero il conflitto tra tasks. Analizzando come funziona la cross-modal attention (cioè quanto testo guarda l’immagine e viceversa, strato per strato), gli autori scoprono che, indipendentemente da quanto il modello è decoupled, i pattern di interazione tra understanding e generation restano negativamente correlati: quando un task usa molta attenzione cross-modale in un layer, l’altro tende a usarne poca.

In più, via via che si decoupla sempre di più, questi pattern diventano sempre più simili a quelli dei modelli task-specific migliori, come Qwen3-VL-8B per l’understanding e HunyuanImage-3.0 per la generazione. In altre parole, il decoupling non elimina il conflitto, ma spinge il modello unificato a “comportarsi” come due modelli specializzati incollati insieme.

Da qui nasce l’idea dell’Attention Interaction Alignment (AIA) loss: invece di cambiare l’architettura, gli autori aggiungono una loss che spinge direttamente i pattern di cross-modal attention di un UMM a imitare quelli dei migliori modelli task-specific, layer per layer. La loss non guarda ai logit o alle predizioni finali, ma alla forma delle curve di interazione tra testo e immagine dentro la rete.

Per testare AIA, la integrano in due setup molto diversi:
un modello puramente unificato (Emu3) e un modello leggermente decoupled (Janus-Pro). In entrambi i casi, senza modificare l’architettura, l’aggiunta della AIA loss migliora sia le metriche di image understanding (MMMU, MMBench, MMVet, POPE, MMVP, MME-P) sia quelle di image generation (GenEval, DPG-Bench), riducendo il gap rispetto ai modelli più aggressivamente decoupled come BAGEL o OmniGen2.

In sintesi, questo lavoro è interessante perché propone una guida completa a come funziona davvero il conflitto tra understanding e generation nei UMM, e dimostra che una semplice modifica del training objective può portare grandi benefici, senza dover ridisegnare da zero l’architettura. È una lettura fondamentale se ti occupi di modelli unificati, training multimodale avanzato o interpretabilità della attention.

Link utili:
Codice: AIA GitHub repo
Paper: arXiv:2511.22663
Dataset: non esiste un dataset standalone dedicato; gli autori usano una miscela di dataset open-source e 200k campioni interni, con script e configurazioni disponibili nella cartella dataset del repo GitHub.

Approcci, tecniche e training recipe: come funziona AIA e la dataset mixture

Per capire bene il paper, conviene prima inquadrare i due modelli su cui viene testata AIA: Emu3 e Janus-Pro.

Emu3 è una famiglia di Unified Multimodal Model che tokenizza immagini, testo e video in uno spazio discreto e usa un unico decoder-only Transformer autoregressivo per fare tutto, allenato con una semplice next-token prediction (NTP) loss su sequenze multimodali interleaved. È un esempio di architettura “pura”: stesso backbone, stesso image encoder (VAE discreto), stessa loss per understanding e generation. Nel paper gli autori usano Emu3 come rappresentante dei modelli completamente unificati.

Janus-Pro, invece, è un modello unificato ma con architecture decoupling moderato. Usa un backbone autoregressivo condiviso, ma decoupla la parte visiva: per l’understanding si appoggia a un vision encoder tipo SigLIP a 384×384, mentre per la generazione usa un encoder diverso e una pipeline ottimizzata per text-to-image. È quindi un caso intermedio tra modelli completamente unificati e quelli fortemente decoupled con doppio backbone o MLLM congelato.

Come viene misurata la cross-modal attention interaction

Il cuore dell’analisi è la cross-modal attention interaction intensity, una misura di “quanto” un layer presta attenzione alla modalità opposta (testo verso immagine o immagine verso testo).

In pratica, per un task come text-to-image:
vengono letti gli attention map di ogni layer dopo il softmax, si sommano i contributi di tutti i token di testo che ogni token immagine guarda, e poi si fa una media su tutti gli head, tutti i token immagine e tutti i layer. Il risultato è una curva per layer che dice: in questo punto della rete, quanto è forte l’interazione cross-modale?

Ripetendo la stessa procedura per diversi task (understanding e generation), per diversi modelli (Emu3, Janus-Pro, BAGEL, modelli task-specific come Qwen3-VL e HunyuanImage) e per diversi tipi e lunghezze di input, gli autori ottengono una panoramica molto chiara: l’andamento di questa curva è una “firma” del modello.

Due osservazioni importanti emergono da questa analisi:
per entrambi i task la curva è diversa e, layer per layer, fortemente negativamente correlata; e questa correlazione negativa rimane anche cambiando il grado di decoupling o il tipo di input.

Cosa fa davvero la Attention Interaction Alignment (AIA) loss

Una volta note le curve di riferimento di modelli task-specific molto forti, come Qwen3-VL-8B per l’understanding e HunyuanImage-3.0 per la generazione, gli autori usano queste curve come target.

L’idea è semplice ma potente:
durante il training di Emu3 o Janus-Pro, oltre alla classica NTP loss (che guarda alle predizioni di token), aggiungono una AIA loss che confronta la cross-modal interaction intensity di ogni layer con una banda di valori desiderati derivata dalle curve dei modelli di riferimento.

Per evitare che la loss sia troppo rigida e distrugga il pretraining, non si cerca di matchare un valore preciso per ogni layer. Si definiscono piuttosto delle “fasce” di intensità per layer, e si usa una loss in stile Huber per non penalizzare troppo deviazioni moderate. Questo consente al modello di mantenere una certa flessibilità, ma lo guida verso pattern di attenzione più “sani” e simili a quelli dei migliori modelli task-specific.

In termini intuitivi, la AIA loss è come dire al modello:
“Quando fai understanding, ai layer alti devi guardare poco alle immagini, come fa Qwen3-VL. Quando fai generation, per gran parte dei layer devi guardare molto al testo, poi a fine rete devi concentrarti quasi solo sull’immagine, come fa HunyuanImage.”

La dataset mixture: quali dati e in che proporzioni

Per rendere la valutazione credibile, gli autori usano una dataset mixture basata principalmente su dataset open-source, con l’aggiunta di una piccola porzione di dati interni di qualità più alta.

Per la image generation usano dataset come ShareGPT-4V, BLIP3-o e OpenSora, che forniscono coppie testo-immagine di alta qualità e talvolta dati video. Per la image understanding usano LLaVA-OneVision-1.0 e Mammoth-VL, che contengono molte conversazioni multimodali, domande e risposte su immagini e scene complesse. In totale, costruiscono circa 1.5M campioni per ciascun task, a cui aggiungono 200k campioni interni per compensare la differenza di qualità rispetto ai dati originali di Janus-Pro.

La proporzione tra dati di understanding e generation è mantenuta 1:1, sia per Emu3 sia per Janus-Pro, proprio per studiare come cambia il comportamento quando si introduce AIA senza alterare il bilanciamento di base.

Training recipe per Emu3 e Janus-Pro

Per Emu3, gli autori caricano i pesi pretrainati e applicano AIA durante la fase di supervised fine-tuning (SFT), usando il loro dataset misto. Le immagini sono ridimensionate a circa 720×720, e il training avviene su un cluster con 8 nodi, ciascuno con 8 NVIDIA H800 80GB, per circa 10 giorni con DeepSpeed ZeRO-3. La cosa interessante è che, variando il peso della AIA loss, la curva della NTP loss rimane quasi invariata: integrare AIA in SFT, se lo si fa con un valore ragionevole, non distrugge il knowledge acquisito in pretraining.

Per Janus-Pro, la situazione è più delicata. Il modello è già SFT-ato sui suoi dati originali, quindi AIA viene applicata in una fase di post-training. Le immagini sono ridimensionate a 384×384, e il training è più corto: circa 1 giorno sugli stessi 8×8 H800, usando FSDP. In questo caso il modello è molto più sensibile al peso della AIA loss, perché la distribuzione è già “rigida”. Tuttavia, scegliendo bene il rapporto tra NTP loss e AIA loss, si ottengono miglioramenti sensibili senza regredire rispetto al modello originale.

Un risultato chiave delle ablation è che un rapporto NTP:AIA intorno a 50:1 funziona molto bene per Janus-Pro: abbastanza forte da modificare i pattern di attenzione, ma non così dominante da rompere le capacità già apprese.

In definitiva, la AIA loss è pensata come un plug-in di training: non richiede stravolgimenti architetturali, può essere applicata in SFT o post-training, e usa solo informazioni già presenti nelle attention map del modello.

Risultati: breakdown dettagliato dei miglioramenti con AIA

Il paper dedica una parte importante alla valutazione quantitativa, confrontando Emu3 e Janus-Pro con e senza AIA su una suite di benchmark multimodali molto ampia.

Emu3 + AIA: cosa cambia rispetto al modello unificato puro

Emu3, nella versione puramente unificata con training congiunto, soffre soprattutto sul lato image understanding. Le metriche su benchmark come MMMU e MMBench sono visibilmente sotto quelle dei migliori modelli di pari scala.

Quando si aggiunge AIA in SFT, le prestazioni di Emu3 migliorano in modo consistente:
sui benchmark di understanding, le metriche aumentano di diversi punti, ad esempio su MMMU e MMBench sia la capacità di ragionamento multimodale sia quella di riconoscere dettagli visivi avanzati migliora sensibilmente; sui benchmark di generazione come GenEval e DPG-Bench, la qualità delle immagini generate aumenta sia in termini di fedeltà alle istruzioni che di estetica, con un incremento netto dei punteggi.

Quello che colpisce è che Emu3 + AIA resta un modello con architettura totalmente unificata, ma riesce a ridurre il gap rispetto a modelli più complessi, ad esempio quelli con double image encoder o MoE/MoT, che sulla carta dovrebbero avere più margini di adattamento.

Janus-Pro + AIA: un modello già forte che diventa ancora più competitivo

Janus-Pro parte da una base già molto buona: è stato progettato proprio per essere un UMM bilanciato tra understanding e generation, con training strategy e scaling dei dati ottimizzati. Tuttavia, anche qui, l’aggiunta di AIA porta benefici.

Sul fronte understanding, i punteggi di MMMU, MMBench, MMVet, MMVP, POPE e MME-P migliorano quasi ovunque, con salti particolarmente evidenti su MMBench e MMMU, che misurano capacità complesse di ragionamento multimodale e comprensione approfondita delle immagini.

Sul fronte generation, i punteggi su GenEval e DPG-Bench si alzano ancora, portando Janus-Pro + AIA molto vicino alle performance di modelli più aggressivamente decoupled come BAGEL o OmniGen2, che usano MoE/MoT e MLLM congelati con diffusion head.

Questo è importante perché dimostra che la AIA loss non è solo una “stampella” per modelli fragili: funziona anche come strumento di fine-tuning avanzato per modelli già forti, permettendo di estrarre un po’ di performance extra senza cambiare architettura.

Ablation study: perché AIA funziona davvero

Le ablation approfondiscono tre aspetti:
la presenza stessa di AIA, il ruolo delle stage-level intensity e l’uso della Huber-style loss al posto di una loss rigida.

Quando si toglie completamente AIA, le prestazioni di Emu3 e Janus-Pro tornano ai livelli baseline, confermando che i guadagni non derivano solo dalla dataset mixture o da altri dettagli del training. Se si rimuovono le “fasce” per layer o la Huber-like loss, le performance scendono addirittura sotto il baseline in molti casi, segno che un vincolo troppo duro sui pattern di attenzione rende l’ottimizzazione instabile e controproducente.

Un’altra ablation interessante riguarda la scelta dei task-specific attention pattern di riferimento: per l’understanding si comparano modelli come DeepSeek-VL2, InternVL 2.5/3 e le varie versioni di Qwen, mentre per la generazione si esplorano modelli come FLUX, SimpleAR, Qwen-Image e HunyuanImage-3.0. Gli esperimenti mostrano che i pattern di understanding sono abbastanza simili tra i vari modelli, mentre quelli di generazione differiscono molto a seconda dell’architettura (pure diffusion vs autoregressive con diffusion head). La combinazione Qwen3-VL-8B + HunyuanImage-3.0 emerge come la migliore per guidare Janus-Pro.

Data sampling ratio: come cambia con AIA

Infine, il paper analizza l’effetto della AIA loss sul data sampling ratio tra esempi di generation e understanding. L’esperienza di lavori precedenti come BAGEL suggeriva che la generazione converge più lentamente e richiede più dati, portando a schemi sbilanciati (molti più esempi di generation).

Con AIA, però, gli autori scoprono che un rapporto 1:1 tra dati di generation e di understanding è quello che dà i risultati migliori per Janus-Pro. Rapporti sbilanciati verso la generazione peggiorano leggermente le metriche complessive. Questo indica che, grazie alla regolarizzazione sui pattern di attention, i due task non sono più solo in conflitto, ma diventano sinergici: allenarli insieme, in quantità bilanciata, porta il modello più in alto rispetto all’uso predominante di dati di generazione.

Concetti chiave da capire per leggere il paper: guida a UMM, cross-modal attention e architecture decoupling

Per sfruttare davvero il paper come guida completa ai Unified Multimodal Model, vale la pena chiarire alcuni concetti fondamentali che ricorrono spesso.

Unified Multimodal Model: cosa sono davvero

Un Unified Multimodal Model (UMM) è un modello che usa un unico backbone per gestire più tasks multimodali: tipicamente image understanding (output testuale, come caption, Q&A, reasoning) e image generation (output visivo, come text-to-image con istruzioni complesse).

L’idea è che, usando un unico Transformer e un unico spazio di token, il modello possa:
riutilizzare meglio la conoscenza tra tasks, ad esempio usare competenze di reasoning per migliorare la generazione; produrre interleaved generation, cioè sequenze miste di testo e immagini che rendono il ragionamento più interpretabile; ridurre la complessità di deployment, evitando di mantenere tanti modelli separati.

Il rovescio della medaglia è che i requisiti di rappresentazione per i due task sono molto diversi, quindi la rete deve continuamente “riorganizzarsi” internamente per accomodarli entrambi.

Architecture decoupling: double image encoder, MoE/MoT, frozen MLLM

Per alleviare il conflitto tra tasks, molti lavori hanno introdotto livelli diversi di architecture decoupling:

Uno schema è il double image encoder, usato ad esempio in modelli come Show-o2 o Janus-Pro: un encoder ottimizzato per l’understanding e uno per la generazione, che producono embedding diversi, anche se poi convergono sullo stesso backbone autoregressivo.

Un altro schema è la famiglia MoE/MoT, come BAGEL o OneCat, in cui moduli diversi (experts o tasks) vengono attivati in base al tipo di input. Qui la decoupling non è solo nell’encoder, ma anche nel percorso interno nel backbone.

Infine ci sono i modelli a frozen MLLM, tipo MetaQuery-XL o OmniGen2, dove il backbone multimodale è congelato e si allena solo la parte generativa (per esempio una diffusion head) usando meccanismi come MetaQueries per collegare le due parti.

Tutte queste soluzioni funzionano bene sulle metriche, ma il paper mostra che, osservando la cross-modal attention, il conflitto tra tasks rimane: semplicemente i pattern di interazione si avvicinano a quelli dei modelli task-specific.

Cross-modal attention e interaction intensity

La cross-modal attention è il meccanismo con cui token di una modalità (per esempio testo) pesano token dell’altra (per esempio immagine), layer per layer. Nei UMM questa attention è la chiave del “dialogo interno” tra testo e immagine.

La cross-modal interaction intensity è una misura aggregata di quanto questo dialogo è forte in ciascun layer. Se la curva è alta in certi layer per un task, significa che lì testo e immagine interagiscono molto; se è bassa, il layer sta lavorando quasi monomodale.

Gli autori mostrano che, per quasi tutti i modelli considerati, le curve per understanding e generation sono negativamente correlate: quando un task ha un picco di interazione, l’altro tende ad averne uno più basso. Questo suggerisce che il modello usa i layer come risorsa condivisa, allocando l’attenzione cross-modale in modo diverso a seconda del task.

Task-specific models come “maestri” di attenzione

Per guidare i pattern di attenzione dei UMM, il paper usa modelli task-specific molto forti:

per l’understanding, il riferimento principale è Qwen3-VL-8B, un MLLM autoregressivo con performance SOTA su molti benchmark di visione-linguaggio;

per la generazione, il riferimento è HunyuanImage-3.0, un modello che combina backbone autoregressivo e diffusion head, con ottime capacità sia estetiche sia di instruction following.

L’osservazione è che le curve di attenzione di questi modelli sono molto “pulite” e coerenti con l’intuizione: per l’understanding si presta poca attenzione alle immagini nei layer alti (dopo aver estratto il contenuto semantico), mentre per la generazione la rete guarda molto al testo nei layer iniziali e poi si concentra sempre più sui token immagine verso la fine.

AIA loss come regolarizzatore di comportamento interno

A differenza di altre tecniche di training che agiscono sulle predizioni finali, la AIA loss agisce sul comportamento interno del modello. È una behavioural regularization: invece di imporre che la risposta sia uguale a quella di un teacher model, impone che il modo in cui il modello distribuisce attenzione tra le modalità assomigli a quello di modelli esperti.

Questa distinzione è importante perché:
preserva la libertà del modello di trovare le proprie soluzioni a livello di output; agisce dove il conflitto tra tasks è più evidente, cioè nella competizione per l’attenzione cross-modale; permette di usare modelli teacher con architettura diversa (per esempio con diffusion head) solo come sorgenti di pattern di attenzione.

È una tecnica relativamente semplice da implementare, ma che cambia profondamente il modo in cui pensiamo alla supervisione nei UMM.

Sezione quiz: domande e risposte per fissare i concetti

Qual è il problema principale che questo paper cerca di risolvere nei Unified Multimodal Model?

Il problema principale è il conflitto tra image understanding e image generation dentro un unico modello. I Unified Multimodal Model dovrebbero usare lo stesso backbone per entrambi i tasks, ma nella pratica le esigenze dei due obiettivi sono diverse: l’understanding richiede rappresentazioni semantiche stabili, la generazione richiede rappresentazioni molto dettagliate e sensibili al contenuto pixel-level. Senza particolari accorgimenti, allenare tutto insieme con la stessa loss porta il modello a dover “scegliere” dove essere bravo, o a trovare compromessi subottimali. Il paper mostra che molte soluzioni esistenti basate su architecture decoupling migliorano le metriche ma non eliminano il conflitto, che rimane visibile nei pattern di cross-modal attention.

Che cos’è la cross-modal interaction intensity e perché è così importante in questo lavoro?

La cross-modal interaction intensity è una misura che riassume quanto, in ogni layer del modello, i token di una modalità (per esempio il testo) prestano attenzione ai token dell’altra modalità (per esempio l’immagine). Si ottiene a partire dagli attention map: si sommano i pesi di attenzione pertinenti e si fa una media su head, token e layer. Questa quantità è importante perché rappresenta una sorta di “profilo di collaborazione” tra testo e immagine lungo la profondità del modello. Nel paper, confrontando queste curve tra diversi modelli e tasks, gli autori scoprono che i pattern sono fortemente negativamente correlati tra understanding e generation, e che il decoupling architetturale spinge questi pattern a somigliare a quelli dei modelli task-specific. La AIA loss viene progettata proprio per allineare questi profili di interazione.

Come funziona in pratica la AIA loss durante il training?

In pratica, durante il training o il fine-tuning di un UMM come Emu3 o Janus-Pro, oltre alla classica next-token prediction loss, si calcolano le curve di cross-modal interaction intensity per ciascun layer e per ciascun task. Parallelamente, si hanno le curve di riferimento derivate dai modelli task-specific Qwen3-VL-8B (understanding) e HunyuanImage-3.0 (generation). Per ogni layer si definisce una fascia di valori desiderati e si calcola una loss in stile Huber che penalizza le deviazioni troppo grandi rispetto a quella fascia. Questa AIA loss viene pesata rispetto alla NTP loss, con un rapporto tipo 50:1, e sommata all’obiettivo complessivo. In questo modo il modello è guidato a imitare non tanto le predizioni dei teacher, quanto il loro modo di distribuire l’attenzione tra testo e immagine lungo la rete.

Perché gli autori scelgono proprio Qwen3-VL-8B e HunyuanImage-3.0 come modelli di riferimento?

Gli autori scelgono Qwen3-VL-8B come riferimento per l’understanding perché rappresenta uno degli MLLM più forti e consolidati per visione-linguaggio, con un’architettura autoregressiva stabile e pattern di attenzione molto coerenti tra versioni e scale diverse. Per la generazione, scelgono HunyuanImage-3.0, che combina un autoregressive backbone e una diffusion head e raggiunge risultati di stato dell’arte in text-to-image con ottimo bilanciamento tra estetica e rispetto delle istruzioni. Analizzando diversi modelli, scoprono che i pattern di attenzione per l’understanding sono abbastanza simili tra vari MLLM, mentre per la generazione la scelta del modello di riferimento conta molto, e HunyuanImage-3.0 fornisce i pattern che, se imitati, portano i migliori risultati su Janus-Pro.

Quali sono gli effetti concreti di AIA sulle performance di Emu3 e Janus-Pro?

Su Emu3, che è un modello puramente unificato, AIA produce miglioramenti notevoli sia sui benchmark di image understanding (MMMU, MMBench, MMVet, POPE, MMVP, MME-P) sia su quelli di image generation (GenEval, DPG-Bench). In particolare, le metriche di understanding crescono di diversi punti, riducendo il divario rispetto a modelli di simile scala ma più decoupled, mentre le metriche di generazione migliorano sia in qualità visiva sia in fedeltà alle istruzioni.

Su Janus-Pro, che parte già da performance molto forti, AIA agisce come boost aggiuntivo: i punteggi su understanding si alzano ancora, soprattutto su benchmark impegnativi come MMMU e MMBench, e anche le metriche di generazione migliorano, portando il modello molto vicino, e a volte comparabile, a modelli con architetture più complesse e decoupled come BAGEL e OmniGen2.

Come cambia la strategia di data sampling ratio quando si introduce AIA?

Senza AIA, molti lavori suggeriscono di usare un data sampling ratio sbilanciato verso la generazione, perché i task generativi convergono più lentamente e richiedono più dati per raggiungere buone performance. È il caso, ad esempio, di BAGEL, dove la distribuzione si inclina sempre più verso la generation.

Con AIA, invece, gli autori mostrano che un rapporto 1:1 tra dati di generation e di understanding è il più efficace per Janus-Pro. Rapporti come 2:1, 4:1 o 1:2 portano a risultati inferiori. Questo suggerisce che la AIA loss riduce il conflitto tra i due task e permette loro di supportarsi a vicenda durante il training: entrambi contribuiscono a spingere i pattern di attenzione verso regioni più “sane” nello spazio dei parametri. È un cambiamento importante di prospettiva per chi progetta dataset mixture per UMM.

Studi correlati: altri lavori da conoscere per una guida completa ai Unified Multimodal Model

Per collocare questo paper nel panorama attuale, vale la pena citare alcuni lavori correlati che vengono discussi o richiamati dagli autori.

Emu3 – Next-Token Prediction is All You Need
Emu3 è un Unified Multimodal Model che fa un passo forte: tutto, immagini, testo e video, viene tokenizzato in sequenze discrete, e un unico Transformer decoder-only viene allenato con next-token prediction su sequenze multimodali miste. Non usa diffusion head né moduli separati per tasks diversi. Il paper su AIA prende Emu3 come esempio di architettura completamente unificata e mostra che, pur partendo da un modello puro, si possono ottenere miglioramenti significativi intervenendo solo sulla loss.

Janus-Pro – Unified Multimodal Understanding and Generation with Data and Model Scaling
Janus-Pro rappresenta un design più pragmatico: rimane un UMM, ma introduce decoupling nei componenti visivi e una strategia di training avanzata, con dati scalati e ottimizzazioni mirate per stabilizzare la generazione. È già molto competitivo di suo, ma con AIA riesce a guadagnare ulteriore terreno senza aumentare la complessità architetturale, dimostrando che la regolarizzazione dei pattern di attenzione è complementare a un buon design di architettura e dataset.

BAGEL – Unified model con MoT/MoE
BAGEL è un modello unificato open-source che adotta una architettura Mixture of Tasks / Mixture of Experts e viene allenato su grandi quantità di dati video, web e linguistici. Raggiunge risultati eccellenti sia su benchmark di understanding sia di generation, spesso superando modelli come Qwen2.5-VL e InternVL 2.5, e resa visiva competitiva con generatori altamente specializzati come SD3. Nel paper su AIA, BAGEL è uno dei riferimenti di “alto decoupling”, contro cui Emu3 e Janus-Pro vengono confrontati in tabella per mostrare quanto il semplice intervento sulla loss possa avvicinare le performance di modelli meno complessi.

MetaQueries / MetaQuery-XL – Frozen MLLM con diffusion head
I lavori su MetaQuery propongono un’altra via: tenere il MLLM congelato e usare un set di MetaQueries learnable per collegarlo a una diffusion head per la generazione di immagini. In questo modo allenare un modello unificato diventa quasi semplice quanto fine-tunare un modello di diffusione, e si ottengono risultati SOTA pur mantenendo la generalità del backbone linguistico-visivo. Il paper AIA li cita come esempio della tendenza a delegare la generazione a un modulo esterno, invece di affrontare il conflitto all’interno di un solo backbone.

OmniGen2, UniWorld-V1, Blip3-o e altri frozen-MLLM based
Altri lavori, come OmniGen2, UniWorld-V1 e Blip3-o, estendono la stessa idea generale: un MLLM congelato, affiancato da un potente modello di generazione (spesso diffusion-based) che viene allenato per seguire le istruzioni e produrre immagini di alta qualità. Questi modelli stabiliscono lo stato dell’arte su molte metriche, ma si allontanano dal concetto di UMM “puro” con unico backbone realmente responsabile di understanding e generation.

Il lavoro “Architecture Decoupling Is Not All You Need For Unified Multimodal Model” si inserisce in questo contesto proponendo una prospettiva diversa: invece di accettare il decoupling come unica via per performance elevate, mostra che una attenzione mirata ai pattern interni, guidata da una loss come AIA, può portare modelli unificati più semplici a risultati molto competitivi. Per chi vuole costruire o ottimizzare Unified Multimodal Model, questo paper è una vera guida completa a come funziona il conflitto tra tasks e a come trasformarlo da limite strutturale in opportunità di miglioramento.

Torna in alto