Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

6 dicembre 2025

Che cos'è Infinity-RoPE, perché è una novità e panoramica dei risultati

Infinity-RoPE è una proposta per spingere i modelli di video generazione ben oltre il loro limite naturale di durata, senza doverli riaddestrare e senza cambiare architettura. Il paper parte da una domanda molto pratica: se ho già un buon modello autoregressivo di tipo Diffusion Transformer, addestrato per generare clip brevi, posso "hackerare" solo la parte di positional encoding e di gestione della KV cache per ottenere video virtualmente infiniti, controllabili in tempo reale e con tagli di scena cinematografici?

Il contesto è quello dei modelli video moderni: lavorano in uno spazio di latents compressi da una 3D-VAE, usano architetture DiT e 3D-RoPE per codificare tempo e spazio. Funzionano bene su clip di pochi secondi, ma appena si allunga l'orizzonte iniziano problemi classici: il modello "dimentica" cosa stava succedendo, i soggetti cambiano volto o abiti, lo sfondo si degrada, le azioni diventano ripetitive o incoerenti. Anche quando la 3D-RoPE supporta teoricamente centinaia di frame, in pratica il modello è stato addestrato su orizzonti molto più corti e fuori da quel regime le attention heads non sanno più cosa fare.

Infinity-RoPE introduce una formulazione relativistica delle posizioni temporali, chiamata Block-Relativistic RoPE, che trasforma il tempo da coordinata assoluta a finestra mobile. Invece di dire "questo frame è il numero 1500 della sequenza", si dice "questo frame è il più recente nella finestra corrente, e gli altri si dispongono relativi a lui". Così il modello non si accorge mai di aver superato il suo limite temporale nativo, perché il sistema sposta continuamente il riferimento. Gli autori mostrano che, applicando questa tecnica a un modello Self-Forcing addestrato solo su clip di 5 secondi a 16 FPS, si possono generare video continui di 60, 120 e persino 240 secondi mantenendo coerenza di soggetto, sfondo e movimento.

La seconda novità è KV Flush, un'operazione di inferenza che serve a controllare le azioni in tempo reale. Nei modelli autoregressivi classici, cambiare prompt a metà video spesso ha un effetto lento e sporco: la cache contiene ancora tante informazioni sul vecchio prompt, quindi il soggetto ci mette molto ad obbedire al nuovo comando, oppure il cambio è brusco e il video "salta". KV Flush svuota la cache quasi del tutto, mantenendo solo due frame chiave: un global sink che riassume la scena e l'ultimo frame generato. Questo basta per mantenere continuità visiva e al tempo stesso far sì che il nuovo prompt prenda effetto quasi istantaneamente.

La terza componente è RoPE Cut, pensata per una esigenza molto cinematografica: avere scene multi-cut in un unico rollout autoregressivo. Normalmente, un modello video diffonde un'unica scena continua; se si vuole passare da "interno giorno" a "esterno notte" con taglio netto, bisogna di solito rigenerare un nuovo video. RoPE Cut introduce salti controllati nelle coordinate temporali di RoPE, che spezzano il contesto temporale pur mantenendo l'identità del personaggio. Il modello vede il nuovo segmento come "nuova scena", ma continua a riconoscere il protagonista.

Dal punto di vista dei risultati, Infinity-RoPE viene valutato su VBench, una suite di metriche per i modelli video che misura aspetti come subject consistency, background consistency, motion smoothness, temporal flickering, dynamic degree, aesthetic quality e imaging quality. Sugli orizzonti lunghi (60, 120 e 240 secondi) Infinity-RoPE raggiunge o supera lo stato dell'arte rispetto a modelli come NOVA, SkyReels-V2, CausVid, Self-Forcing e Rolling-Forcing, mantenendo alta la coerenza del soggetto, la stabilità dello sfondo e la ricchezza di movimento anche dopo molti minuti di generazione.

Un aspetto chiave, che rende questa novità Infinity-RoPE particolarmente interessante, è che la metodologia è training-free: prende un modello già distillato con Self-Forcing e applica solo modifiche nella fase di inferenza. Non servono nuove run di training costose, nuovi dataset o architetture più grandi. Il contributo è quasi "di sistema operativo": si cambia il modo in cui il modello usa il tempo e la memoria, non il modello in sé.

Alla fine, questo paper è una guida completa a un trucco concettuale piuttosto elegante: reinterpretare RoPE e KV cache come un sistema dinamico di memoria, capace di passare da una fase episodica (in cui conta l'ordine preciso dei frame) a una fase semantica (in cui il passato remoto diventa un ricordo diffuso che influenza il presente senza vincolarne i dettagli). È un'idea che parla tanto agli ingegneri che implementano pipeline video, quanto a chi studia interpretabilità delle attention heads.

Alla fine di questa sezione, ecco i riferimenti pratici: Repository GitHub per il progetto, al momento focalizzato sulla project page, Paper arXiv "Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout", [Dataset non disponibile pubblicamente dichiarato dagli autori].

Approcci, tecniche e training-free recipe di Infinity-RoPE: come funziona davvero

Per capire come funziona Infinity-RoPE, conviene partire dal base model. Gli autori si appoggiano a Wan2.1-T2V-1.3B, un modello text-to-video di tipo Diffusion Transformer distillato da una versione più grande tramite Self-Forcing. Il modello lavora in uno spazio di latents prodotto da una 3D-VAE, che comprime i video lungo tempo e spazio in un tensore compatto. Ogni frame non è più una griglia di pixel, ma un blocco di latents con canali che rappresentano feature astratte dello spazio-tempo.

Nel core del modello c'è un DiT che usa 3D-Rotary Positional Embeddings (3D-RoPE) per codificare la posizione di ogni token sia nel tempo che nelle due dimensioni spaziali. L'idea di RoPE, nata nei transformer per il testo, è quella di rappresentare le posizioni come rotazioni in uno spazio complesso; qui viene estesa a tre assi, così che ogni hidden state "sa" in che frame e in che punto dell'immagine si trova. Il problema è che RoPE ha un orizzonte massimo di posizioni per cui è stato configurato, ad esempio 1024 frame; oltre questo limite, le rotazioni iniziano a ripetersi o a entrare in zone non viste in training, e le attention heads perdono interpretabilità. In più, il modello Wan è stato addestrato solo su clip brevi, quindi già a poche centinaia di frame ci si trova fuori distribuzione.

Il framework Infinity-RoPE non modifica il training né la loss. Invece, interviene in tre punti della pipeline di inferenza:

Prima di tutto, Block-Relativistic RoPE cambia il modo in cui assegnamo indici temporali ai latents durante l'autoregressione. In una generazione autoregressiva classica, il modello produce blocchi di frame, li inserisce in una KV cache di dimensione fissa e sposta avanti la finestra man mano che il video si allunga. Con Block-Relativistic RoPE, mentre la finestra di cache resta limitata a pochi blocchi, gli indici RoPE non sono più legati alla posizione assoluta nella sequenza, ma alla posizione relativa all'interno della finestra corrente; contemporaneamente, i blocchi più vecchi vengono "ruotati indietro" nello spazio RoPE per preservare le relazioni temporali locali. In pratica, il modello vede sempre una finestra temporale coerente, anche se nella realtà siamo molto oltre il frame mille.

Quando la KV cache supera l'orizzonte temporale nativo del teacher, entra in gioco un secondo trucco concettuale: la semanticization. Gli autori prendono spunto dalla neuroscienza, dove si parla di semanticizzazione dei ricordi quando eventi passati perdono i dettagli temporali ma ne conservano il significato. Allo stesso modo, i blocchi di latents molto distanti nel passato vengono "collassati" su un indice temporale minimo e trattati come memoria semantica: non si tiene più traccia di quando esatto siano accaduti, ma il loro contenuto continua a influenzare il modello come contesto globale. Il risultato è una memoria a due regimi: vicino nel tempo, i frame sono rappresentati con geometria temporale precisa; lontano, diventano un background semantico che stabilizza lo stile del video.

La seconda componente, KV Flush, è un'operazione di gestione della cache pensata per l'action control. In molti modelli autoregressivi, quando si cambia prompt a metà video si ha un compromesso scomodo: se si svuota completamente la cache, il cambio è brusco e si perde continuità; se si tiene tutta la cache, il modello resta "agganciato" al vecchio prompt e reagisce in ritardo. KV Flush prova a prendere il meglio dei due mondi: al momento del cambio di prompt, la cache viene svuotata tranne che per il global sink token (una sorta di riassunto della scena usato per normalizzare l'attenzione) e l'ultimo frame generato. Su questa base minima, il nuovo prompt entra immediatamente, ma il video continua a sembrare un unico flusso naturale, senza hard cut.

La terza componente, RoPE Cut, introduce tagli di scena veri e propri senza riavviare la generazione. Il trucco è manipolare direttamente le coordinate temporali di RoPE: a un certo punto della sequenza, si applica un salto nei valori di posizione, come se si spostasse di colpo il blocco attivo in un nuovo "frame zero" locale, lasciando il resto della cache dietro di sé. Dopo il cut, i nuovi frame guardano quasi solo a se stessi e al sink, mentre il segmento precedente resta come storia passata separata. Il risultato è un effetto simile al montaggio cinematografico: si può passare da una scena all'altra mantenendo l'identità del protagonista, ma senza rispettare la continuità temporale stretta.

Un elemento interessante del paper è la parte di mechanistic interpretability: gli autori visualizzano le mappe di self-attention frame-to-frame e mostrano come cambia la struttura dell'attenzione nelle tre modalità. Con Block-Relativistic RoPE, appare una banda diagonale ben definita che indica che ogni frame guarda soprattutto ai predecessori recenti e a un sink iniziale stabile; con KV Flush, l'attenzione verso i frame intermedi si attenua a favore del sink e degli ultimi frame; con RoPE Cut, la mappa si spezza in due blocchi quasi disgiunti, corrispondenti alle due scene. Questo conferma in modo visivo che l'hack sulle posizioni temporali produce esattamente il comportamento desiderato.

Dal punto di vista dell'implementazione, la training-free recipe è relativamente semplice: si prende il modello Self-Forcing pre-esistente, si abilita l'autoregressione con KV cache di dimensione ridotta, si sostituisce la formula di 3D-RoPE lungo l'asse temporale con la versione Block-Relativistic, e si aggiungono due operatori di inferenza, uno per KV Flush e uno per RoPE Cut. Gli autori fissano parametri come la dimensione della cache, l'indice di onset del sink, la guidance scale e gli "shift" temporali una volta sola e li mantengono in tutti gli esperimenti. Il risultato è un sistema che, da fuori, assomiglia a un normale pipeline text-to-video, ma "sotto il cofano" ha un modo completamente diverso di pensare al tempo, ed è qui che nasce il "come funziona Infinity-RoPE" che rende questo lavoro così peculiare.

Risultati sperimentali di Infinity-RoPE: guida completa alla lettura delle metriche

Per misurare in che misura questa novità Infinity-RoPE porta benefici concreti, gli autori usano una combinazione di esperimenti qualitativi e quantitativi. La parte quantitativa ruota attorno a VBench, un benchmark che valuta i modelli video lungo dimensioni come qualità estetica del frame, consistenza del soggetto, consistenza dello sfondo, dinamismo del movimento, flickering temporale e qualità di imaging.

Gli esperimenti coprono quattro orizzonti temporali: video brevi di 5 secondi, e video lunghi di 60, 120 e 240 secondi. A livello di baselines, i confronti includono modelli bidirezionali come Wan2.1 e LTX-Video, e modelli autoregressivi come NOVA, Pyramid Flow, MAGI-1, SkyReels-V2, CausVid, Self-Forcing e Rolling-Forcing.

Sulle clip di 5 secondi, Infinity-RoPE mostra prestazioni in linea con lo stato dell'arte: non è progettato per migliorare radicalmente questo regime, perché il base model era già molto forte. Le metriche di qualità estetica e consistenza sono comparabili alle migliori baseline, e la dynamic degree resta alta, segno che il modello non "bara" generando video statici per ottenere score migliori.

La vera differenza emerge sui video lunghi. A 60 secondi, Infinity-RoPE ottiene un punteggio complessivo VBench superiore rispetto alle alternative autoregressive e mantiene valori elevati di subject consistency e background consistency. Modelli come NOVA e SkyReels-V2 iniziano a mostrare problemi di drift dell'identità o degrado dello sfondo; Rolling-Forcing resta forte in alcuni aspetti ma tende a sacrificare dinamismo per tenere sotto controllo l'errore accumulato. Infinity-RoPE, grazie alla sua gestione relativistica della posizione, mantiene invece scene ricche di movimento senza perdere coerenza.

Sui video di 120 secondi, il quadro si accentua: Infinity-RoPE si piazza sistematicamente primo o secondo in quasi tutte le metriche e conquista il miglior punteggio complessivo. Gli autori evidenziano in particolare come la metrica di dynamic degree resti alta, indicazione che il modello non "congela" il soggetto per rimanere dentro la comfort zone, ma continua a farlo muovere in modo credibile. Anche la motion smoothness resta buona, segno che il passaggio da un blocco di latents al successivo è fluido.

Nei video di 240 secondi, uno scenario dove molti modelli iniziano a collassare, Infinity-RoPE conserva una combinazione rara di qualità: soggetto stabile, sfondo coerente, movimento continuo e assenza di flickering marcato. NOVA e SkyReels-V2 mostrano più chiaramente limiti di consistenza, mentre Rolling-Forcing, pur essendo pensato per long-video real-time, tende secondo gli autori a generare sequenze ripetitive o a "resettare" spesso il contenuto.

La parte qualitativa, supportata da una ricca raccolta di video sul project page, rende visivi questi numeri. Nei confronti fianco a fianco su 60 secondi, Infinity-RoPE mantiene il volto del personaggio quasi identico dall'inizio alla fine, mentre in altri modelli il viso cambia in modo evidente, l'abbigliamento si deforma, oppure lo sfondo perde coerenza. Nei video con action control, l'effetto di KV Flush è molto chiaro: quando il prompt passa da "sta in piedi" a "salta" a "si siede" a "canta", il soggetto risponde rapidamente, senza lunghi tratti intermedi in cui il modello sembra "indeciso".

Un altro set di risultati qualitativi riguarda i dynamic scene cut ottenuti con RoPE Cut. I video mostrano ad esempio un personaggio che cammina in un interno, poi si passa a un esterno notturno o a un cambio di location mantenendo però l'identità, lo stile degli abiti e la continuità approssimativa della posa. Non si tratta di un semplice jump-cut ottenuto concatenando più video, ma di un'unica sequenza autoregressiva in cui il sistema cambia scena attraverso un salto nelle coordinate RoPE.

Infine, gli autori conducono user studies per valutare sia la qualità di long video sia l'action control, confrontando Infinity-RoPE con sistemi come LongLive, SkyReels-V2 e Self-Forcing. I partecipanti giudicano Infinity-RoPE superiore in text alignment, subject consistency, motion smoothness e qualità complessiva del video nelle configurazioni di action control, confermando che il comportamento desiderato non è solo misurato da metriche automatiche ma percepito anche dagli esseri umani.

Concetti chiave da capire per leggere Infinity-RoPE guida completa

Per trarre il massimo dal paper, è utile chiarire alcuni concetti fondamentali che ricorrono in tutto il testo. Questa sezione vuole essere una piccola guida completa ai termini e alle idee base.

Il primo concetto è la differenza tra bidirectional video diffusion e autoregressive video diffusion. I modelli bidirezionali, come molte pipeline di tipo U-Net o DiT standard, vedono il video come un blocco intero: durante il denoising, ogni frame può guardare sia al passato che al futuro. Questo rende molto più facile mantenere coerenza globale, ma impedisce l'utilizzo in streaming, perché al tempo t il modello non può sapere che cosa accadrà al tempo t+1. I modelli autoregressivi, invece, producono il video in avanti, frame dopo frame o blocco dopo blocco, usando solo il passato come contesto. Questo li rende adatti a scenari real-time e a orizzonti teoricamente infiniti, ma li espone al problema dell'errore che si accumula lungo la catena.

Il secondo concetto è quello di Self-Forcing e più in generale dei metodi di distillazione autoregressiva. L'idea è prendere un modello bidirezionale potente e distillarlo in un generatore causale più leggero, facendogli imparare a imitare non solo i dati reali ma anche le proprie previsioni durante rollout autoregressivi. In questo modo si riduce il mismatch tra training e inferenza, perché il modello vede, già in fase di addestramento, i propri errori accumulati e impara a correggerli. Metodi come Self-Forcing, Self-Forcing++ e Rolling-Forcing appartengono a questa famiglia e usano varianti di Distribution Matching Distillation (DMD) o altri criteri di distillazione per avvicinare la distribuzione dei video generati a quella reale.

Il terzo concetto è 3D-RoPE. Nei transformer testuali, RoPE sostituisce il classico positional embedding sommato con un meccanismo che ruota le componenti dei vettori per codificare la posizione. In 3D-RoPE, questa idea viene estesa a tre assi: tempo, altezza e larghezza. Il canale dei hidden states viene diviso in tre gruppi, e ciascun gruppo viene ruotato in base alla propria coordinata. Il vantaggio è che le relazioni relative tra token (ad esempio la distanza temporale o spaziale) possono essere espresse in modo naturale attraverso la struttura delle rotazioni. Il limite è che, se si fissano parametri di RoPE per supportare una certa lunghezza massima, usare indici troppo grandi fa entrare il modello in un regime non visto in training, ed è esattamente questo il problema che Infinity-RoPE rimette in discussione con la sua formulazione relativistica.

Un quarto concetto è la KV cache nei transformer autoregressivi. Durante la generazione, invece di ricomputare le chiavi e i valori per tutti i frame passati a ogni step, il modello li memorizza in una cache. Questo rende l'inferenza più veloce ma introduce un tema di gestione della memoria: se la cache cresce senza limiti, diventa troppo pesante; se la si trancia troppo, si perde contesto. Tecniche come Rolling-Forcing introducono attention sink per tenere in cache solo un riassunto globale e pochi frame recenti, mentre LongLive propone meccanismi di KV-Recache per riscrivere il contenuto della cache quando cambia il prompt. Infinity-RoPE si inserisce in questa conversazione con KV Flush e con la sua idea di semanticizzazione, proponendo una cache che passa in modo fluido da memoria episodica dettagliata a memoria semantica compatta.

Un quinto concetto fondamentale riguarda le metriche VBench. Per chi non le ha mai usate, è utile sapere che non misurano solo la bellezza dei singoli frame, ma anche aspetti di coerenza temporale e allineamento con il testo. Subject consistency guarda a quanto il protagonista rimane riconoscibile lungo il video; background consistency valuta se lo sfondo resta plausibile e non salta; motion smoothness misura la fluidità del movimento; dynamic degree prova a quantificare quanto accade nel video, privilegiando sequenze dinamiche rispetto a clip quasi statiche; temporal flickering punisce oscillazioni rapide indesiderate. Infinity-RoPE è pensato proprio per massimizzare queste metriche nei regimi lunghi, senza sacrificare la qualità estetica.

Infine, c'è il tema dell'action-controllable video generation. In questo setting, il prompt non è statico: cambia nel tempo, ad esempio passando da "un uomo corre nel parco" a "l'uomo salta in una pozzanghera" fino a "l'uomo si siede su una panchina". Perché l'esperienza sia credibile, il modello deve reagire rapidamente a ciascun cambio di prompt senza introdurre artefatti evidenti e senza cambiare identità al personaggio. LongLive affronta questa sfida tramite KV-Recache, una procedura costosa che riscrive l'intera cache a ogni cambio di azione; Infinity-RoPE, con KV Flush, propone invece un aggiornamento locale e leggero che si limita a mantenere sink e ultimo frame, ottenendo così reattività con costo computazionale quasi costante.

Quiz su Infinity-RoPE: domande e risposte

Che problema principale cerca di risolvere Infinity-RoPE?

Risposta: Infinity-RoPE nasce per superare il limite di durata dei modelli video autoregressivi basati su 3D-RoPE e KV cache finite. I modelli Self-Forcing esistenti sono addestrati su clip di circa 5 secondi e, una volta superato questo orizzonte, iniziano a perdere coerenza temporale, identità del soggetto e qualità visiva. Infinity-RoPE propone una riformulazione relativistica delle posizioni temporali e due operatori di inferenza che permettono di generare video molto più lunghi, controllabili e con scene multi-cut, senza riaddestrare il modello.

Perché si dice che Infinity-RoPE è una tecnica training-free?

Risposta: Si parla di soluzione training-free perché gli autori non toccano l'addestramento del modello. Usano un modello Self-Forcing già distillato da Wan2.1 e intervengono solo sul modo in cui vengono assegnati gli indici di RoPE lungo il tempo e su come viene gestita la KV cache durante l'inferenza. Non c'è bisogno di un nuovo dataset, di una nuova loss o di ore di GPU aggiuntive; basta modificare il codice dell'inferenza.

In che cosa Block-Relativistic RoPE permette video "infiniti"?

Risposta: Block-Relativistic RoPE evita che il modello si accorga di aver superato il limite massimo di posizioni per cui è stato progettato. Anziché usare indici temporali assoluti che crescono all'infinito, definisce un sistema di riferimento mobile: la finestra di KV cache ha sempre dimensione limitata e gli indici di RoPE vengono continuamente riancorati rispetto all'inizio di questa finestra. I frame lontani nel passato vengono "ruotati indietro" o semanticizzati, mentre i frame recenti occupano sempre le posizioni più informative. Così il modello percepisce un orizzonte temporale finito ma scorrevole, mentre per l'utente il video può continuare quanto vuole.

Che ruolo ha KV Flush nell'action control?

Risposta: KV Flush serve a far sì che i cambi di prompt durante la generazione abbiano effetti immediati ma non distruttivi. Quando il prompt cambia, la cache viene quasi completamente svuotata, tranne che per il global sink frame e per l'ultimo frame generato. Questo elimina le tracce semantiche del vecchio prompt che in altri sistemi rimangono a lungo nella cache, rallentando la reazione del modello. Al tempo stesso, mantenere l'ultimo frame e il sink evita che il video abbia un salto netto o una discontinuità visiva troppo forte.

Cos'è una scena multi-cut e come la realizza RoPE Cut?

Risposta: Una scena multi-cut è una sequenza in cui si susseguono più ambientazioni o momenti distinti, come in un trailer con vari spezzoni concatenati, ma generata in un unico rollout autoregressivo. RoPE Cut realizza questo effetto introducendo salti nelle coordinate temporali RoPE: a un certo punto del video, il blocco attivo viene riancorato a un nuovo regime di posizioni, spezzando il legame temporale con il passato pur conservando l'identità del personaggio. I nuovi frame guardano quasi solo al sink e a se stessi, perciò il modello può cambiare scena radicalmente senza perdere coerenza di soggetto.

Perché VBench è importante per valutare Infinity-RoPE?

Risposta: VBench è pensato proprio per analizzare in modo fine la qualità dei modelli video lungo molte dimensioni rilevanti, tra cui coerenza del soggetto e dello sfondo, dinamismo del movimento e stabilità temporale. Dal momento che Infinity-RoPE è progettato per migliorare soprattutto il comportamento su orizzonti lunghi, serve un benchmark che sappia riconoscere non solo la bellezza di singoli frame, ma anche quanto il video resta coerente e interessante dopo decine o centinaia di secondi. Il fatto che Infinity-RoPE ottenga punteggi alti in metriche come subject consistency, motion smoothness e dynamic degree su 60, 120 e 240 secondi è quindi un'indicazione forte della validità dell'approccio.

In che cosa Infinity-RoPE differisce da Rolling-Forcing o SkyReels-V2?

Risposta: Rolling-Forcing e SkyReels-V2 sono lavori che estendono l'orizzonte temporale attraverso nuove procedure di training, distillazione e design dell'architettura, spesso con costi computazionali significativi e dataset specifici. Rolling-Forcing, ad esempio, introduce un denoising congiunto di più frame e meccanismi di attention sink, mentre SkyReels-V2 combina Diffusion Forcing con reinforcement learning e infrastruttura su larga scala per ottenere video tipo "film". Infinity-RoPE, invece, non tocca il training: è un layer di inferenza plug-and-play che può essere applicato sopra modelli Self-Forcing esistenti, trasformandoli in generatori a orizzonte virtualmente infinito con action control e scene multi-cut, il tutto tramite una reinterpretazione di RoPE e KV cache.

Studi collegati e altre novità sui modelli video autoregressivi

Infinity-RoPE si inserisce in una linea di ricerca molto attiva sulle novità nei modelli video autoregressivi. Capire come si posiziona rispetto agli altri lavori aiuta a vedere meglio il contributo specifico del paper.

Un primo riferimento è proprio Self-Forcing, la tecnica di distillazione su cui si basa il modello di partenza. Self-Forcing utilizza rollouts autoregressivi durante il training, combinati con distribution matching distillation, per fare in modo che il modello student impari a gestire in modo robusto gli errori accumulati e mantenga coerenza temporale meglio degli approcci distillati solo su clip brevi. Versioni successive come Self-Forcing++ estendono la finestra temporale e la complessità delle procedure di distillazione, arrivando a minute-scale senza supervisioni dirette su video molto lunghi.

Rolling-Forcing è un'altra pietra miliare: propone un denoising congiunto su più frame, con livelli di rumore progressivamente crescenti, e un meccanismo di attention sink che conserva informazioni globali a lungo termine. L'obiettivo è ridurre l'errore accumulato e consentire generazioni di durata multi-minuti in tempo reale su una singola GPU, con un design orientato al deployment.

SkyReels-V2 rappresenta invece un sistema end-to-end per la generazione di film infiniti. Combina architetture autoregressive di tipo Diffusion-Forcing con una forte attenzione al linguaggio cinematografico: shot, espressioni, movimenti di camera, e così via. La pipeline include meccanismi per controllare l'inizio e la fine di sequenze e per estendere video esistenti, e richiede risorse di training e infrastruttura notevoli.

Lavori come CausVid mostrano come si possa distillare un grande modello bidirezionale in un generatore causale veloce attraverso DMD, riducendo drasticamente il numero di step di diffusione e abilitando applicazioni streaming. NOVA, MAGI-1 e Pyramid Flow esplorano altre varianti di autoregressione, ad esempio abbandonando la quantizzazione dei latents o generando chunk di frame in parallelo.

Sul fronte dell'action control, LongLive propone KV-Recache come modo per rendere i modelli autoregressivi più reattivi al cambio di prompt, ricostruendo periodicamente la cache in base al nuovo testo. Questa soluzione funziona, ma introduce latenze significative perché il costo di riscrivere la cache cresce con il numero di token e di transizioni. Infinity-RoPE prende una strada più semplice: anziché riscrivere l'intera cache, la svuota quasi del tutto (KV Flush) e si affida alla combinazione di sink e ultimo frame per garantire continuità, ottenendo così un'azione praticamente istantanea a costo quasi costante.

Sul versante della valutazione, VBench e la sua evoluzione VBench-2.0 hanno reso possibile confrontare questi modelli lungo dimensioni multiple in modo relativamente standardizzato, offrendo una base comune per dichiarare "stato dell'arte" in ambito video. Prima di questi benchmark, la valutazione era spesso limitata a esempi qualitativi o a metriche aggregate poco informative.

In questo panorama, Infinity-RoPE si distingue perché sposta il focus dal "come addestriamo il modello" al "come lo interpretiamo e lo facciamo lavorare a inferenza". È una novità Infinity-RoPE concettuale: mostra che, prima ancora di usare modelli più grandi o dataset più lunghi, si può ottenere un salto di capacità ripensando il modo in cui usiamo gli embedding posizionali e la memoria. Per chi costruisce sistemi di produzione, la promessa è chiara: prendere un modello Self-Forcing già disponibile e trasformarlo, con poche modifiche al codice, in un motore video capace di lunghi flussi continui, action control e scene multi-cut. Per chi studia i foundation models, questo lavoro è anche un invito a guardare con più attenzione a come i latents, gli hidden states e le heads organizzano il tempo, perché in quella struttura si nasconde spesso molto più potenziale di quanto dica il semplice limite di training originario.