Guida completa a Patch Collapse: CoMAE, CMAR, CViT

Che cos’è “The Collapse of Patches”, perché è interessante e che risultati porta

“The Collapse of Patches” introduce un modo nuovo di guardare alle immagini nei modelli di visione: invece di trattare tutte le patch come uguali, il paper mostra che alcune patch sono molto più importanti di altre per ridurre l’incertezza su ciò che resta dell’immagine. Gli autori chiamano questo processo patch collapse. L’analogia è con la meccanica quantistica: osservare una porzione dell’immagine fa “collassare” l’incertezza sulle altre parti, stringendo le possibili interpretazioni.

In pratica, se stai generando o classificando un’immagine, non ha senso partire da zone irrilevanti come uno sfondo piatto: molto meglio cominciare dalle parti che “spiegano” il resto, come il becco di un gallo o il muso di un cane. Il contributo principale del paper è proprio imparare un ordine ottimale in cui “rivelare” o usare le patch di un’immagine, e dimostrare che rispettare questo ordine migliora sia la generazione di immagini, sia la classificazione.

Per fare questo gli autori propongono tre componenti chiave, che ritroveremo per tutta la guida:

CoMAE (Collapse Masked Autoencoder): un autoencoder che impara quali patch sono davvero utili per ricostruirne un’altra. Da qui nasce una misura di dipendenza tra patch e, tramite un grafo, un ranking di importanza.
CMAR (Collapsed Mask Autoregressive Model): una variante del generatore autoregressivo MAR, guidata da questo ordine di collasso per generare patch in una sequenza più “intelligente”.
CViT (Collapsed Vision Transformer): un Vision Transformer che vede solo le patch ad alta priorità, ottenendo alta accuratezza pur osservando una porzione ridotta dell’immagine.

L’idea chiave è una guida completa a come funziona patch collapse: immagini, viste come insiemi di patch, hanno una struttura di dipendenze interne. Alcune patch sono quasi autosufficienti per capire la scena, altre sono ridondanti. Se impari a stimare queste dipendenze, puoi definire un collapse order, cioè un ordine in cui le patch vengono “realizzate” che riduce l’incertezza nel modo più efficiente possibile. Per stimare questo ordine gli autori costruiscono un grafo di dipendenze e ci applicano PageRank, lo stesso algoritmo usato da Google per ordinare le pagine web.

Perché è interessante, in pratica?

Perché molti sistemi di visione moderni – da masked image modeling a modelli autoregressivi e Vision Transformer – trattano le patch in modo uniforme: la maschera è casuale, l’ordine è casuale o fisso (come la scansione riga per riga), e il modello impara comunque. Questo lavoro dimostra che aggiungere una struttura sul dato, cioè un ordine di patch che rispetta la loro importanza, porta vantaggi misurabili senza cambiare l’architettura di base dei modelli.

La parte “risultati” è il cuore della guida a The Collapse of Patches:

Gli autori lavorano su ImageNet-1k e usano un VAE per rappresentare ogni immagine come una griglia di token latenti. Su questi token CoMAE impara quali patch sono davvero informative per ciascun punto dell’immagine; da qui costruisce un grafo e, con PageRank, estrae l’ordine di collasso.

Nel lato generazione, quando il generatore autoregressivo MAR viene usato seguendo il collapse order (MAR+C) o viene anche fine-tunato per rispettarlo (CMAR), le metriche come FID, tFID, Inception Score, precision e recall mostrano miglioramenti consistenti rispetto alla versione originale. Ad esempio, CMAR ottiene un tFID migliore a parità di configurazione, e le immagini risultano visivamente più coerenti, con meno artefatti e oggetti generati in modo più pulito.

Nel lato classificazione, CViT viene addestrato su ImageNet facendo vedere solo una frazione delle patch dell’immagine, in particolare quelle con rank più alto. Risultato: con solo circa il 22% delle patch visibili, CViT mantiene un’accuratezza top-1 intorno al 70,6%, superando baselines che usano strategie di pruning di token o mascheramento casuale. Allo stesso tempo CViT mantiene o supera le performance full-image quando non si maschera nulla.

In sintesi, questa guida completa mostra che come osservi o processi un’immagine – in quale ordine, con quali patch – conta quasi quanto il modello che usi. Patch collapse diventa un modo generale di ragionare su efficienza, generazione e classificazione nella visione.

Alla fine di questa sezione, raccolgo i riferimenti pratici: il codice e le risorse sono ospitati nel repository GitHub The Collapse of Patches – CoP, il paper è disponibile su arXiv 2511.22281, mentre il dataset usato negli esperimenti è una variante di ImageNet-1k.

Indice

Che cos’è “The Collapse of Patches”, perché è interessante e che risultati porta
Approcci, tecniche e “ricetta di training” usata nel paper
Risultati: cosa migliorano davvero CoMAE, CMAR e CViT
Concetti chiave da capire bene prima di leggere il paper
Quiz per The Collapse of Patches: domande e risposte per fissare i concetti
Studi correlati da conoscere per inquadrare il paper
Riferimenti e link utili

Approcci, tecniche e “ricetta di training” usata nel paper

Per capire davvero come funziona The Collapse of Patches serve una guida a CoMAE, CMAR e CViT, cioè i tre mattoni principali. Tutti e tre lavorano su rappresentazioni latenti di immagini, non sui pixel grezzi.

Il punto di partenza è un VAE già usato dal modello MAR: ogni immagine di ImageNet viene compressa in una griglia di 256 token latenti, ognuno corrispondente a una patch. Su questi token si applicano i modelli proposti nel paper.

Il primo passo della pipeline è CoMAE (Collapse Masked Autoencoder). L’idea è semplice a parole: per ogni patch bersaglio vogliamo scoprire quali altre patch sono davvero necessarie a ricostruirla. Se per ricostruire il becco del gallo bastano la cresta e una parte del collo, ma non serve quasi nulla dello sfondo, allora quelle patch sul soggetto avranno un peso alto, lo sfondo un peso vicino a zero.

CoMAE ha un encoder in stile ViT che prende come input tutte le patch di un’immagine (tranne la patch bersaglio, rimossa per evitare scorciatoie) e produce una maschera morbida, cioè un vettore di pesi tra 0 e 1, uno per ogni patch. Patch con peso alto sono considerate cruciali per collassare l’incertezza sul bersaglio, patch con peso basso sono quasi ignorate. Questi pesi vengono poi usati per iniettare più o meno rumore nei token: le patch considerate poco utili vengono disturbate di più, rendendole di fatto inutilizzabili per la ricostruzione.

Il decoder, anche lui in stile ViT, riceve i token rumorosi insieme a un token speciale che indica qual è la patch da ricostruire. Il suo compito è ricostruire il token latente della patch bersaglio usando soprattutto l’informazione dalle patch “selezionate” dall’encoder. Se l’encoder impara pesi sensati, la ricostruzione migliora e la perdita si riduce.

Durante il training, succede una cosa interessante: i pesi tendono a polarizzarsi verso valori molto vicini a 0 o 1, invece di rimanere tutti intermedi. Ciò significa che CoMAE scopre spontaneamente che solo un sottoinsieme di patch è davvero responsabile del collasso per ciascuna patch bersaglio, mentre il resto è rumore. Gli autori introducono anche una contrastive regularization sui vettori di pesi per spingerli a essere diversi tra patch diverse: in questo modo ogni patch “si appoggia” a un sottoinsieme distinto di patch di supporto, invece di usare sempre le stesse. Questo porta sia a una maggiore diversificazione, sia a una migliore ricostruzione.

Una volta che CoMAE ha imparato pesi per ciascuna coppia di patch (chi aiuta chi a collassare), gli autori costruiscono un grafo di dipendenze tra patch. Ogni patch è un nodo, e c’è un arco da una patch a un’altra se la prima è importante per la seconda, con un peso che riflette quanto è importante. Su questo grafo applicano PageRank per calcolare un punteggio di “indipendenza” per ogni patch: le patch con punteggi alti sono quelle da cui molte altre dipendono, cioè quelle che più riducono l’incertezza globale se osservate per prime. Ordinare le patch in base a questo punteggio produce il collapse order.

Questo collapse order è completamente data-driven: non si basa su euristiche (per esempio “parte centrale dell’immagine”), ma viene imparato dalle dipendenze interne tra patch in un enorme dataset come ImageNet.

A questo punto entra in gioco CMAR (Collapsed Mask Autoregressive Model). MAR è un modello autoregressivo per la generazione di immagini: dato un set di token latenti, ne genera uno alla volta seguendo un certo ordine, tipicamente casuale o schedulato. In CMAR gli autori mantengono l’architettura di MAR ma cambiano il modo in cui viene addestrato: invece di generare patch in ordine casuale, CMAR impara a generarle seguendo il collapse order.

In pratica, per ogni immagine di training:

La si passa attraverso CoMAE per ottenere il rank delle patch.
Si mascherano alcune patch a rank basso, e si chiede al modello di generarle partendo da quelle ad alto rank.

Questo rende l’ordine di sintesi molto più strutturato. Per evitare overfitting dovuto a un ordine troppo rigido, gli autori mescolano occasionalmente sequenze di rank casuali come forma di regolarizzazione. CMAR viene ottenuto fine-tunando un MAR già pre-addestrato su ImageNet, quindi il costo computazionale aggiuntivo è relativamente contenuto.

Infine, c’è CViT (Collapsed Vision Transformer) per la classificazione. Qui l’idea è quasi speculare alla generazione: se sai quali patch sono più informative, puoi nascondere le altre e risparmiare calcolo. Gli autori prendono un ViT-Base pre-addestrato su ImageNet-21k e lo fine-tunano su ImageNet-1k in due modalità: una classica, in cui vede tutta l’immagine, e una collassata, in cui vede solo le patch ad alto rank mentre quelle a basso rank vengono rimosse dalla sequenza di input. Il training usa una scheduling di mascheramento che varia il numero di patch rimosse, per rendere il modello robusto a diversi livelli di visibilità.

Poiché la sequenza di token gestita da CViT è più corta, l’attenzione interna del transformer è meno costosa, e il modello può essere più efficiente a parità di accuratezza. L’aspetto notevole è che CViT non solo mantiene buoni risultati quando vede poche patch, ma rimane competitivo o migliore anche quando vede l’immagine intera, segno che imparare a rispettare il collapse order aiuta anche la rappresentazione globale.

Risultati: cosa migliorano davvero CoMAE, CMAR e CViT

Passiamo al breakdown dei risultati, per capire come funziona davvero, in numeri, questa guida completa al patch collapse.

Tutti gli esperimenti sono condotti su ImageNet-1k, usando immagini centrate e compresse tramite il VAE condiviso con MAR. Le metriche usate sono standard: per la generazione, FID, tFID, Inception Score, precision e recall sullo spazio delle feature; per la classificazione, accuratezza top-1 e top-5 su diverse percentuali di patch visibili, più una misura di Area under Curve che integra l’accuratezza al variare del tasso di mascheramento.

Sul lato generazione autoregressiva, il confronto principale è tra tre varianti:

MAR originale, che genera patch in ordine casuale.
MAR+C, che usa l’ordine di collasso in inferenza, ma senza essere stato fine-tunato su di esso.
CMAR, che invece è stato fine-tunato per generare patch seguendo il collapse order.

Le tabelle mostrano che:

MAR+C migliora l’Inception Score rispetto a MAR e ottiene un tFID competitivo, pur non essendo stato ri-addestrato.
CMAR ottiene il miglior tFID tra le varianti, segno che la qualità delle immagini, misurata in termini di distanza dal dataset reale, beneficia del training guidato da collapse order.

Il quadro che emerge è che il modo in cui il modello attraversa l’immagine durante la generazione ha un impatto chiaro sulla qualità finale: generare prima le patch più indipendenti e informative rende il resto della sintesi più semplice e coerente. Le figure del paper mostrano che CMAR produce immagini più nitide, con meno confusione tra oggetti e meno artefatti strutturali rispetto a MAR.

Gli autori studiano anche l’effetto del CFG (classifier-free guidance) per CMAR, variando il valore di scala. Vedono che valori più bassi migliorano alcune metriche come FID ma riducono l’Inception Score, mentre valori più alti fanno l’opposto; scelgono quindi un valore intermedio intorno a 3.0, leggermente diverso da quello ottimale per MAR, perché CMAR si appoggia più fortemente sui label di classe per seguire correttamente i diversi collapse order tra classi.

Un altro risultato importante riguarda la direzione dell’ordine: se CMAR viene addestrato generando dalle patch a rank basso verso quelle ad alto rank, le performance peggiorano nettamente rispetto alla direzione opposta. Questo conferma la intuizione di base: conviene partire dalle patch che “guidano” il resto dell’immagine, non da quelle che dipendono da tutto il resto.

Sul lato classificazione, i risultati sono ancora più impressionanti. Gli autori confrontano:

un ViT standard che vede l’intera immagine e viene mascherato in modo casuale solo in inferenza;
DynamicViT, un metodo di token pruning che decide quali token rimuovere direttamente nello spazio del modello;
ViT+C, che usa direttamente i collapse mask per decidere quali patch tenere in inferenza, ma senza cambiare il training;
RViT, addestrato con mascheramento casuale anziché guidato dal collapse order;
CViT, addestrato e valutato rispettando il collapse order.

Sulle curve di accuratezza al variare della percentuale di patch mascherate, CViT domina quasi sempre. Quando solo circa il 22% delle patch rimane visibile, CViT mantiene una top-1 di circa 70,6%, mentre metodi che usano mascheramento casuale o pruning sul modello crollano molto più velocemente. Allo stesso tempo, CViT ottiene la migliore Area under Curve, segno che non solo è forte in condizioni estreme di mascheramento, ma mantiene performance elevate su tutto il range di patch visibili.

Un dettaglio interessante è che persino ViT+C, senza ri-training, beneficia dei collapse mask: non migliora il ViT standard quando vede tutte le patch, ma lo supera in scenari con mascheramento molto spinto. Questo suggerisce che il solo riordinare o filtrare le patch in base alla loro importanza, senza cambiare il backbone, può già dare benefici tangibili.

Infine, gli autori analizzano la struttura degli stessi collapse order. Visualizzando i rank di patch su molte immagini di una classe, ottengono pattern simili: le patch risultate più importanti tendono a disegnare i contorni principali dell’oggetto, e i pattern tra classi diverse sono moderatamente simili, segno che esiste una sorta di struttura comune su come “si realizza” una immagine quando la guardiamo patch dopo patch.

Concetti chiave da capire bene prima di leggere il paper

Per usare questa guida a The Collapse of Patches come vera “guida completa”, è utile chiarire alcuni concetti fondamentali che ritornano continuamente nel paper.

Un primo concetto è proprio patch collapse. Immagina di avere una foto, scomposta in patch. Prima di guardarla, hai molte possibili interpretazioni: l’immagine potrebbe contenere un cane, un gallo, un’auto, un paesaggio. Quando riveli la patch con il becco del gallo, l’incertezza sul resto dell’immagine cala drasticamente: improvvisamente molte interpretazioni diventano impossibili. Quando riveli una patch di cielo blu uniforme, l’incertezza cala molto meno. Patch collapse è il modo in cui questa riduzione di incertezza avviene, patch dopo patch.

Il secondo concetto è masked image modeling (MIM) e, dentro questo, la differenza tra approcci stocastici e adattivi. Nel MIM tradizionale, come in MAE o SimMIM, si mascherano patch random e il modello impara a ricostruirle: questo è efficace, ma assume in pratica che tutte le patch siano uguali, perché la maschera non dipende dal contenuto. Alcuni lavori successivi, come CMAE, AttMask o SemMAE, introducono maschere più intelligenti che tengono conto della salienza, dell’attenzione o della semantica. Tuttavia, anche questi metodi non modellano in modo esplicito la riduzione di incertezza tra patch, né cercano un ordine globale di collasso. CoMAE fa proprio questo: usa un modello in stile MIM per stimare dipendenze tra patch e, da lì, costruire un ranking globale.

Un terzo concetto chiave è autoregressive image generation. In questi modelli, generare un’immagine significa produrre una sequenza di unità (pixel, token quantizzati, patch latenti) una alla volta, usando quelle già generate per decidere la successiva. PixelRNN, PixelCNN, VQ-GAN con decoder autoregressivo, MaskGIT e MAR sono tutti esempi di questa famiglia. Di solito l’ordine è fisso (per esempio raster) o stocastico. Il paper suggerisce che c’è un ordine “meglio degli altri”, che dipende dal contenuto dell’immagine: se generi prima le patch in cima al collapse order, riduci l’incertezza nel modo più efficiente e rendi la vita più facile ai passi successivi della generazione.

Un quarto concetto è Vision Transformer e token pruning. Un ViT tratta un’immagine come una sequenza di token (patch) e fa self-attention su tutti. Questo ha un costo quadratico nel numero di token: se dimezzi il numero di patch, il costo dell’attenzione cala quasi di un fattore quattro. Molti metodi cercano quindi di eliminare token ridondanti dentro il modello, per esempio usando attenzione o altre reti di decisione per decidere quali token mantenere. CoP propone un punto di vista complementare: invece di decidere nel modello, si decide già nello spazio immagine, usando il collapse order per scegliere quali patch passare al ViT. In questo senso, CViT è una guida a come funziona un ViT quando lo alimenti solo con patch ad alta priorità nel collapse order.

C’è poi il concetto di PageRank applicato alle patch. Se pensi alle patch come nodi di un grafo, dove c’è un arco da A a B se la patch A è importante per collassare la patch B, allora vuoi trovare i nodi che “influenzano” di più il resto. PageRank fa esattamente questo: assegna un punteggio alto alle patch che sono importanti per molte altre patch, direttamente o indirettamente. Ordinare le patch secondo PageRank produce un ordine in cui le patch più indipendenti, cioè quelle che riducono maggiormente l’incertezza globale, vengono prima. Nel paper c’è anche una parte teorica che collega questo ranking alla minimizzazione di una quantità di entropia cumulativa, ma per una lettura pratica puoi considerare PageRank come “l’algoritmo che trova l’ordine più informativo”.

Un’ultima idea importante è la distinzione tra dati e modello. Molti miglioramenti di efficienza nella visione si basano su cambiare l’architettura, introdurre nuovi moduli di pruning, o fare distillation. The Collapse of Patches cambia invece soprattutto il modo di organizzare l’input: le immagini vengono lette e processate rispettando una struttura appresa dai dati. Questo significa che lo stesso collapse order può, almeno in principio, essere riusato da modelli diversi, senza modificarne l’architettura. Gli autori sottolineano proprio questa separazione: il loro metodo opera nello spazio immagine, e può coesistere con tecniche di pruning nello spazio modello.

Con questi concetti in mente, il paper diventa molto più leggibile: CoMAE è un modo di estrarre una mappa di dipendenze, PageRank la trasforma in un ordine globale, CMAR e CViT mostrano come seguire questo ordine migliori generazione e classificazione.

Quiz per The Collapse of Patches: domande e risposte per fissare i concetti

Che cosa significa “patch collapse” in questo paper?

Patch collapse è il processo con cui l’incertezza su un’immagine si riduce mano a mano che osservi nuove patch. Alcune patch, come la parte principale di un oggetto, riducono moltissimo l’incertezza sul contenuto rimanente; altre, come uno sfondo uniforme, riducono poco o nulla. Il paper formalizza questo fenomeno e mostra come misurarlo e sfruttarlo per definire un ordine ottimale in cui “realizzare” le patch di un’immagine.

Che ruolo ha CoMAE nella pipeline di The Collapse of Patches?

CoMAE è il componente che impara le dipendenze tra patch. Dato un insieme di token latenti, CoMAE decide, per ogni patch bersaglio, quali altre patch sono davvero utili a ricostruirla, producendo un vettore di pesi che va da patch “cruciali” a patch “irrilevanti”. Questi pesi, osservati su tutte le patch di tutte le immagini, diventano gli archi di un grafo di dipendenze tra patch. Da questo grafo, tramite PageRank, si ottiene il collapse order. Senza CoMAE non ci sarebbe un modo data-driven di stimare quali patch sono importanti e in che ordine usarle.

In che modo CMAR differisce da MAR?

CMAR mantiene l’architettura di base di MAR, ma cambia il modo in cui viene addestrato e in cui genera. Invece di generare patch in un ordine casuale, CMAR viene fine-tunato per generarle seguendo il collapse order appreso da CoMAE. Questo significa che genera prima le patch più indipendenti e informative, e solo dopo le patch più dipendenti. I risultati mostrano che questo semplice cambiamento di ordine porta a miglioramenti nelle metriche di generazione, come tFID e qualità visiva delle immagini.

Perché CViT riesce a classificare bene anche quando vede poche patch?

CViT vede solo le patch ad alto rank nel collapse order, cioè quelle più informative per ridurre l’incertezza sulla classe. Se il collapse order è ben appreso, queste poche patch contengono già gran parte dell’informazione necessaria a capire che oggetto c’è nell’immagine. Durante il training, CViT viene esposto a diverse percentuali di mascheramento, così impara a sfruttare al massimo l’informazione concentrata in queste patch di alta priorità. Di conseguenza, con solo una frazione delle patch visibili, mantiene un’accuratezza molto alta, superiore a modelli che mascherano patch a caso o che prunano token nel modello.

In che cosa The Collapse of Patches è diverso dai metodi di token pruning su ViT?

I metodi di token pruning lavorano tipicamente dentro il modello: guardano le rappresentazioni interne o le mappe di attenzione e decidono quali token possono essere eliminati o fusi per risparmiare calcolo. The Collapse of Patches, invece, lavora soprattutto nello spazio immagine: prima di entrare nel ViT, si decide quali patch includere nella sequenza in base al collapse order. Questo rende il metodo più agnostico rispetto al modello: lo stesso ordine di patch potrebbe essere riusato in modelli diversi, e può essere combinato con tecniche di pruning interne senza conflitti.

Perché gli autori usano PageRank per ordinare le patch?

PageRank è un algoritmo pensato per trovare i nodi più “importanti” in un grafo, cioè quelli che influenzano molti altri nodi direttamente o indirettamente. Nel grafo delle patch, un arco da A a B significa che A è importante per collassare B. Applicando PageRank su questo grafo, le patch che hanno una grande influenza sulla riduzione di incertezza in tutta l’immagine ottengono punteggi più alti. Ordinare le patch secondo questi punteggi produce un collapse order che, in modo intuitivo e anche teoricamente motivato nel paper, è vicino all’ordine ottimale per minimizzare l’incertezza cumulativa.

Studi correlati da conoscere per inquadrare il paper

Per completare questa guida completa a The Collapse of Patches, vale la pena collocare il lavoro nel panorama più ampio della visione artificiale.

Un primo gruppo di lavori correlati è quello del stochastic masked image modeling. Qui troviamo metodi come MAE, SimMIM, Painter, MixMAE, VideoMAE, OmniMAE, CAPI e MIMIR. Tutti questi approcci usano mascheramento di porzioni dell’immagine per imparare rappresentazioni robuste, ma assumono sostanzialmente che le patch siano intercambiabili: si decide cosa mascherare in modo casuale o secondo schemi predefiniti, senza stimare un vero ordine di importanza tra patch. CoMAE si posiziona in continuità con questa linea, ma sposta il focus sulla modellazione esplicita della riduzione di incertezza tra patch, piuttosto che solo sulla loro ricostruzione.

Un secondo gruppo riguarda l’adaptive masked image modeling. Qui troviamo lavori come CMAE, AttMask, SemMAE, RAM++ e Self-Guided MAE, che introducono maschere più intelligenti, spesso guidate da mappe di attenzione, semantica o curriculum learning. Questi metodi selezionano patch salienti per migliorare l’efficienza o la difficoltà del compito di ricostruzione. The Collapse of Patches si avvicina a questo filone ma se ne distingue per due aspetti: da un lato, formalizza il problema in termini di patch collapse e riduzione di incertezza globale; dall’altro produce non solo una maschera per una singola immagine, ma un vero e proprio ordine globale di collasso che può essere seguito da modelli diversi, sia in generazione sia in classificazione.

Sul fronte della autoregressive image generation, The Collapse of Patches si collega a lavori come PixelRNN, PixelCNN, VQ-GAN con decoder autoregressivo, MaskGIT, MAGE, MAR, VAR, MAGVIT e HMAR. Gran parte di questi modelli sperimenta con diversi ordini di generazione: raster, casuali, schedulati o gerarchici. CMAR introduce un ordine nuovo, basato sulla struttura di dipendenze tra patch appresa dai dati. Invece di scegliere l’ordine a priori o progettare una schedulazione manuale, CMAR segue un ordine che ha una giustificazione sia empirica sia teorica, grazie al collegamento con PageRank e alla riduzione di incertezza.

Infine, nel mondo dei Vision Transformer efficienti, il lavoro si confronta con metodi come DynamicViT, ATS, A-ViT, AdaViT, EViT, SPViT e DToP. Questi approcci cercano di ridurre il costo computazionale del ViT eliminando token ridondanti nel corso delle layer, fusionando rappresentazioni o facendo early exit su token “facili”. The Collapse of Patches offre una prospettiva complementare: anziché cambiare la dinamica interna del modello, si riduce il numero di token in ingresso scegliendo, nello spazio immagine, solo le patch che il collapse order ritiene più informative. I risultati sperimentali mostrano che questo tipo di pruning “agnostico al modello” può competere e in alcuni casi superare metodi di pruning più sofisticati che lavorano dentro il transformer.

Mettendo insieme questi filoni, The Collapse of Patches si può leggere come una guida a come sfruttare la struttura dei dati, piuttosto che solo la potenza dei modelli, per ottenere sistemi di visione più efficienti e interpretabili. Patch collapse, CoMAE, CMAR e CViT mostrano che ripensare l’ordine e la selezione delle patch non è solo un dettaglio di implementazione, ma una leva potente per migliorare generazione, classificazione e comprensione delle immagini in modelli moderni di visione.