Scaling Spatial Intelligence with Multimodal Foundation Models

stato della ricerca deep learning

Perché questo paper conta per la spatial intelligence

Questo paper introduce la famiglia di modelli SenseNova-SI, una serie di multimodal foundation models progettati specificamente per potenziare la cosiddetta spatial intelligence, cioè la capacità di ragionare su spazio, posizioni, prospettive, movimenti e relazioni geometriche a partire da immagini, video e testo. Gli autori mostrano che, nonostante i grandi progressi dei foundation models, le capacità spaziali restano un punto debole, e propongono un approccio basato soprattutto su dati su larga scala per colmare questo gap.

Il cuore del lavoro è la costruzione di SenseNova-SI-8M, un enorme dataset multimodale con circa otto milioni di coppie immagine-domanda-risposta, organizzate secondo una tassonomia molto precisa di capacità spaziali (misura, relazioni, trasformazioni di vista, deformazioni, ecc.). A partire da questo dataset, gli autori addestrano vari modelli SenseNova-SI su diverse backbone multimodali (come InternVL3, Qwen3-VL e Bagel) e li confrontano con i migliori modelli open source e proprietari su benchmark dedicati alla spatial intelligence, ottenendo risultati allo stato dell’arte.

I numeri sono impressionanti: SenseNova-SI raggiunge circa il 68,7% su VSI-Bench, il 43,3% su MMSI, l’85,6% su MindCube, il 54,6% su ViewSpatial e il 50,1% su SITE, mantenendo allo stesso tempo ottime performance su benchmark multimodali generali come MMBench-En (84,9%). Questo significa che i modelli diventano molto più “bravi” nello spazio senza sacrificare capacità generali come question answering visivo, comprensione di immagini e ragionamento di alto livello.

Dal punto di vista pratico, la famiglia SenseNova-SI è rilasciata come progetto aperto, con repository pubblico (ad esempio la repo OpenSenseNova/SenseNova-SI su GitHub) e modelli disponibili anche su piattaforme come Hugging Face, in modo da fungere da base per future ricerche su spatial intelligence. Il paper è inoltre parte di un progetto “in progress”: gli autori dichiarano che aggiorneranno continuamente il report e rilasceranno nuovi modelli man mano che li addestrano.

Paper, GIthub Repo

Indice

Dentro l’idea: un data-centric boost alla spatial intelligence

Invece di progettare una nuova architettura da zero, il lavoro parte da multimodal foundation models già affermati (come InternVL3, Qwen3-VL e Bagel) e li “potenzia” con training mirato su dati spaziali in grande quantità. L’idea è: se la backbone è già forte nel comprendere testo e immagini in generale, quello che manca è un curriculum ricco e ben strutturato di esempi di spatial intelligence.

Per costruire questo curriculum, gli autori definiscono una tassonomia di capacità spaziali (misurare distanze, contare oggetti in posizioni specifiche, ragionare su occlusioni, cambiare punto di vista, seguire traiettorie, interpretare mappe, ecc.) e raccolgono/compongono dati che coprono sistematicamente queste abilità. Il dataset SenseNova-SI-8M combina porzioni di dataset QA generali e dataset di community focalizzati su spatial intelligence, tutti rietichettati o organizzati secondo questa tassonomia unificata.

Una scelta importante è che gli autori non modificano l’architettura di base dei modelli: niente nuovi moduli 3D, niente componenti geometrici custom o scene graph specializzati. Invece adottano un approccio esplicitamente data-centric, dove l’aumento di capacità avviene principalmente grazie a scala e diversità del dataset, oltre che ad alcune scelte di training come il mix di dati generali e spaziali.

Dal lato modello, il lavoro esplora più dimensioni: diverse dimensioni di modello (ad esempio circa 2B e 8B parametri per le varianti SenseNova-SI), diversi backbone e diversi regimi di data scaling, per capire come cresce la spatial intelligence al variare di queste scelte. Questo permette di studiare vere e proprie scaling laws della spatial intelligence, analoghe a quelle studiate in precedenza per language models ma specifiche per capacità spaziali multimodali.

Cosa dicono davvero i numeri: panoramica dei risultati

Gli esperimenti principali confrontano SenseNova-SI con i migliori modelli multimodali open source e con alcuni modelli proprietari di punta (come GPT-5 e Gemini 2.5 Pro) su una batteria di benchmark per spatial intelligence. In generale, SenseNova-SI supera nettamente tutti i modelli open source e, in molti casi, batte anche i modelli chiusi di fascia alta sui benchmark specificamente spaziali.

Alcuni risultati sintetici che conviene fissare in mente sono:

  • Circa 68,7% su VSI-Bench, un benchmark pensato per valutare vari aspetti di spatial reasoning con immagini.
  • Circa 43,3% su MMSI, che valuta spatial intelligence multimodale più complessa.
  • Circa 85,6% su MindCube, che misura capacità logico-spaziali su configurazioni visive strutturate.
  • Circa 54,6% su ViewSpatial, orientato a cambi di punto di vista e trasformazioni di prospettiva.
  • Circa 50,1% su SITE, un benchmark più ampio sulla comprensione spaziale.

Un aspetto cruciale è che queste performance non arrivano a scapito delle capacità generali: su benchmark multimodali generici, come MMBench-En, i modelli SenseNova-SI mantengono punteggi elevati (intorno all’84,9%), comparabili o superiori alle rispettive backbone non specializzate. Questo suggerisce che il training focalizzato su spatial intelligence non danneggia, e anzi spesso rafforza, la comprensione visivo-linguistica generale.

Il paper mostra inoltre che SenseNova-SI può operare su sequenze di frame video relativamente corte a inference time, mantenendo performance comparabili o migliori rispetto a modelli come Cambrian-S, che invece sono addestrati esplicitamente con contesti molto lunghi (64-128 frame). Questo indica che la spatial intelligence che il modello sviluppa gli permette di “saltare” tra frame distanti mantenendo coerenza spaziale, senza bisogno di osservare ogni singolo frame intermedio.

Infine, gli autori presentano alcune demo di applicazioni downstream, come controllo robotico e agenti embodied, dove SenseNova-SI è in grado di pianificare traiettorie e azioni che richiedono una comprensione robusta di geometria, prospettive e relazioni spaziali tra oggetti. Queste demo non sono solo prove di concetto, ma mostrano come una buona spatial intelligence diventi un prerequisito per agenti che interagiscono nel mondo reale.

Concetti chiave da padroneggiare prima di leggere il paper

Multimodal foundation models e spatial intelligence

Per seguire bene il paper, è importante avere chiaro cosa siano i multimodal foundation models: modelli di tipo general-purpose che ricevono in input combinazioni di testo, immagini e spesso video, e producono output linguistici (risposte, descrizioni, piani di azione) o multimodali. Esempi citati sono InternVL3, Qwen3-VL e Bagel, che fungono da backbone di partenza per SenseNova-SI.

La spatial intelligence, nel contesto di questi modelli, significa essere in grado di capire dove si trovano gli oggetti, come sono orientati, cosa succede se ci si sposta o se cambia il punto di vista, e quali sono le relazioni geometriche tra elementi della scena. Non si tratta solo di riconoscere oggetti, ma di ragionare su posizioni relative, distanze, movimenti e trasformazioni implicite nella scena visuale.

Tassonomia delle capacità spaziali

Il dataset SenseNova-SI-8M è organizzato secondo una tassonomia che copre diverse categorie di capacità spaziali, come: misura dello spazio, relazioni spaziali, ricostruzione spaziale, trasformazioni di prospettiva, deformazioni spaziali e ragionamento spaziale più astratto. Ogni esempio QA nel dataset è etichettato in base a quale capacità principale mette in gioco, così da poter misurare come il modello scala su ciascun tipo di abilità.

Questa tassonomia permette di analizzare non solo un singolo punteggio aggregato ma anche “di che tipo” è la spatial intelligence che il modello sta sviluppando, ad esempio verificando se migliora di più sulle relazioni topologiche (sopra/sotto, dentro/fuori), sui cambi di vista 3D o sul conteggio condizionato alla posizione. Per chi legge il paper, tenere in mente queste categorie aiuta a interpretare tabelle e grafici non solo come numeri, ma come profili di abilità diverse.

Data scaling laws e mix di dati

Un altro concetto chiave è quello di data scaling laws: come cambiano le performance del modello al crescere della quantità e della composizione dei dati di training. Gli autori studiano sia l’effetto dell’aumento di dati puramente spaziali, sia quello del mix tra dati generali e dati spaziali, osservando che alcune capacità saturano più in fretta di altre e che oltre una certa soglia di scala servono strategie nuove.

Per leggere le sezioni sperimentali è utile familiarizzare con l’idea che non tutti i tipi di dati portano lo stesso beneficio alle stesse capacità, e che alcune metriche di spatial intelligence continuano a crescere quando si cambia il mix di dati o il tipo di backbone di base. Il paper discute anche possibili rischi, come l’overfitting a shortcut linguistici (ad esempio il modello che impara a rispondere usando pattern lessicali, invece di ragionare sull’immagine), che emergono in certi regimi di scala.

Spatial chain-of-thought e ragionamento esplicito

Gli autori esplorano inoltre una forma di spatial chain-of-thought, cioè la generazione di spiegazioni passo-passo che esplicitano come il modello sta ragionando spazialmente per arrivare alla risposta. Questo è un tema importante sia per la valutazione della qualità del ragionamento, sia per la possibile interpretabilità e controllabilità del modello.

Per apprezzare questa parte del lavoro, è utile avere familiarità con l’uso di chain-of-thought nelle language models, e capire come queste tecniche vengano adattate al setting multimodale con immagini o video. Nel contesto di spatial intelligence, questo tipo di ragionamento esplicito può includere passaggi come descrivere la scena, identificare gli oggetti chiave, inferire relazioni spaziali e solo alla fine fornire la risposta alla domanda.

Mettiamoci alla prova: quiz (con risposte)

Quiz a risposta aperta breve


  1. Perché i multimodal foundation models tradizionali sono deboli nella spatial intelligence, secondo gli autori del paper?
    Risposta suggerita: perché i loro dataset di training sono stati ottimizzati soprattutto per task di linguaggio e riconoscimento visivo generico, con poca copertura sistematica di compiti che richiedono ragionamento spaziale preciso (relazioni geometriche, cambi di prospettiva, manipolazioni nello spazio 3D), e quindi i modelli tendono a fallire su questi casi anche se sono molto forti su QA generale o descrizione di immagini.



  2. Che cos’è SenseNova-SI-8M e perché è centrale nel lavoro?
    Risposta suggerita: è un grande corpus di spatial QA con circa otto milioni di esempi immagine-domanda-risposta, costruito combinando e riorganizzando dataset esistenti sotto una tassonomia coerente di capacità spaziali, ed è il principale motore del miglioramento di spatial intelligence nei modelli SenseNova-SI.



  3. Perché gli autori scelgono un approccio data-centric invece di progettare una nuova architettura?
    Risposta suggerita: perché vogliono mantenere compatibilità con le pipeline esistenti, sfruttare backbone multimodali già molto forti, e dimostrare che gran parte del gap di spatial intelligence può essere colmato tramite dati e strategie di training, senza introdurre nuovi moduli complessi.



  4. Cosa significa che SenseNova-SI mantiene buone performance su benchmark generali come MMBench-En?
    Risposta suggerita: significa che il training focalizzato su spatial intelligence non “spezza” le capacità multimodali generali del modello, ma anzi permette di avere un modello che è allo stesso tempo forte nelle abilità spaziali e competitivo nei task multimodali standard.



  5. Qual è il ruolo degli esperimenti con sequenze video e confronto con modelli come Cambrian-S?
    Risposta suggerita: servono a mostrare che SenseNova-SI riesce a sfruttare meglio l’informazione spaziale anche quando lavora con meno frame a inference time, mantenendo performance simili o migliori rispetto a modelli addestrati con contesti video più lunghi, indicando una migliore comprensione strutturale dello spazio-tempo.


Domande concettuali “vero/falso”


  1. V/F: SenseNova-SI modifica radicalmente l’architettura delle backbone per introdurre moduli 3D dedicati.
    Risposta: falso; l’approccio è deliberatamente data-centric e cerca di non toccare le architetture di base.



  2. V/F: I modelli SenseNova-SI superano solo i modelli open source, ma restano chiaramente dietro ai modelli proprietari come GPT-5 sui benchmark di spatial intelligence.
    Risposta: falso; in molti benchmark spaziali i modelli SenseNova-SI superano sia altri modelli open source sia alcuni modelli proprietari di punta come GPT-5 e Gemini 2.5 Pro.



  3. V/F: Il dataset SenseNova-SI-8M è costruito anche a partire da dataset QA generali come VQA e GQA, oltre che da dataset di community focalizzati su spatial intelligence.
    Risposta: vero; il corpus è una sintesi di molte sorgenti diverse, riorganizzate secondo la tassonomia spaziale.



  4. V/F: Gli autori osservano possibili casi di overfitting a shortcut linguistici e discutono i rischi associati.
    Risposta: vero; il paper analizza esplicitamente questo rischio nel regime di data scaling.



  5. V/F: La famiglia SenseNova-SI è chiusa e non rilasciata pubblicamente.
    Risposta: falso; il progetto è aperto, con repository e modelli rilasciati per la community di ricerca.


Altri lavori da conoscere se ti interessa la spatial intelligence

Cambrian-S e il ragionamento su video lunghi

Nel paper, SenseNova-SI viene confrontato con modelli come Cambrian-S, che sono progettati per gestire sequenze video lunghe (fino a 64-128 frame) e che quindi rappresentano uno stato dell’arte per il ragionamento spazio-temporale. Gli autori mostrano che, pur usando meno frame a inference time, SenseNova-SI può raggiungere o superare Cambrian-S su alcuni benchmark di spatial intelligence, suggerendo che la qualità del ragionamento spaziale può contare più della pura lunghezza del contesto.

Questo confronto è interessante perché mette in luce due strategie diverse: da un lato l’estensione del contesto temporale, dall’altro un addestramento mirato su dati spaziali altamente curati. Per chi fa ricerca, la domanda aperta è come combinare il meglio dei due mondi, integrando lunghi contesti video con dataset spaziali strutturati.

EASI: una piattaforma per valutare la spatial intelligence

Un altro tassello importante nell’ecosistema è la piattaforma EASI (Spatial Intelligence Evaluation Platform), introdotta da SenseTime come suite standardizzata di benchmark per misurare le capacità spaziali dei modelli. EASI raccoglie più test e metriche per coprire vari aspetti della spatial intelligence e viene citata come riferimento nella comunicazione dei risultati di SenseNova-SI.

Questa piattaforma aiuta a dare un linguaggio comune alla community: invece di guardare solo a singoli dataset, EASI consente di valutare i modelli lungo più dimensioni spaziali in maniera coerente. Nel paper, i risultati di SenseNova-SI su diversi benchmark spaziali sono parte di questo sforzo più ampio verso una valutazione standardizzata della spatial intelligence.

Dataset di partenza: VQA, GQA, IconQA, VSR, SPEC e simili

Il dataset SenseNova-SI-8M è costruito anche a partire da dataset già noti nella letteratura di visual question answering e reasoning, come VQA, GQA, IconQA, VSR, SPEC e altri. Questi dataset forniscono esempi di domande che coinvolgono aspetti spaziali, anche se non erano originariamente organizzati esplicitamente attorno a una tassonomia di spatial intelligence.

Il contributo di SenseNova-SI sta nel prendere questi materiali “sparsi” e riconfigurarli in un corpus coerente, con etichette uniformi che permettono analisi sistematiche di scaling e generalizzazione. Per studenti di master interessati a dataset design, è utile andare a vedere come queste sorgenti originarie vengono combinate e quali tipi di domande vengono selezionati o rietichettati.

Altri multimodal foundation models di riferimento: InternVL3, Qwen3-VL, Bagel

Infine, vale la pena citare le backbone stesse come “related work”: InternVL3, Qwen3-VL e Bagel sono multimodal foundation models che costituiscono lo stato dell’arte nella comprensione visivo-linguistica generale prima di essere specializzati in SenseNova-SI. Il paper usa queste backbone per mostrare che il metodo è relativamente agnostico rispetto all’architettura di base, e che si possono ottenere guadagni di spatial intelligence su più famiglie di modelli.

Per chi studia Deep Learning è utile leggere anche i paper originali di queste backbone, così da capire quali scelte architetturali e quali dataset generali vengono poi “raffinati” dal training su SenseNova-SI-8M. Questo aiuta a distinguere cosa viene ereditato dalla backbone e cosa invece è merito del nuovo curriculum di training orientato alla spatial intelligence.

Torna in alto