Come Funziona SAM 3: Spiegazione del Paper Meta AI

SAM 3 in poche parole: “segmentare i concetti”

SAM 3 è l’ultima evoluzione della famiglia Segment Anything di Meta, un foundation model di visione che riesce a rilevare, segmentare e tracciare oggetti in immagini e video partendo da “concept prompts” come frasi brevi o esempi visivi.
Rispetto ai SAM precedenti, non si limita più a segmentare un singolo oggetto per prompt, ma trova tutte le istanze di un concetto (“tutte le yellow school bus nel video”) assegnando a ciascuna una maschera e un ID univoco nel tempo.

Il paper introduce il task di Promptable Concept Segmentation (PCS) e un nuovo benchmark chiamato SA-Co (“Segment Anything with Concepts”) per valutarlo in modo sistematico su immagini e video, misurando quanto bene il modello trova “tutti gli oggetti di un certo tipo” a partire da un concetto.
SAM 3 mostra circa il doppio delle prestazioni dei migliori sistemi esistenti su PCS pur mantenendo e migliorando le capacità di segmentazione interattiva di SAM 2, quindi è sia più “intelligente” sui concetti sia ancora molto utilizzabile come strumento pratico di annotazione.

Il modello e il codice sono stati rilasciati pubblicamente nel repository GitHub facebookresearch/sam3, che contiene implementazione, pesi pre-addestrati e istruzioni per l’uso in scenari di ricerca e produzione.

SAM3 Paper, SAM3 Github Repo

Indice

SAM 3 in poche parole: “segmentare i concetti”
Dietro il titolo: gli ingredienti tecnici di SAM 3
I numeri dietro le promesse: risultati di SAM 3
Cosa capire bene prima di leggere il paper
Mettiamoci alla prova: quiz su SAM 3
Oltre SAM 3: studi collegati da conoscere
Riferimenti e link utili

Dietro il titolo: gli ingredienti tecnici di SAM 3

SAM 3 è un modello unificato che mette insieme detection, segmentation e tracking, tutto condizionato da prompt testuali o visivi che definiscono il concetto da cercare.
L’idea chiave è che, invece di passare coordinate (punti, box) per dire “segmenta questo oggetto”, si passa un concetto (“persona con cappello rosso”) o alcune immagini di esempio, e il modello trova automaticamente tutte le istanze rilevanti.

A livello di architettura, SAM 3 mantiene uno schema in tre blocchi come i SAM precedenti: un image encoder che estrae feature visive, un prompt encoder per testo ed esempi visivi, e un decoder che produce maschere e ID degli oggetti.
La parte nuova è un componente tipo DETR (“DEtection TRansformer”) per la detection open-vocabulary e un “presence head” che separa il riconoscimento del concetto (c’è o non c’è nella scena) dalla localizzazione degli oggetti, evitando conflitti negli obiettivi di addestramento.

I prompt di SAM 3 possono essere di vari tipi e combinati tra loro: brevi frasi nominali (yellow school bus, striped cat), immagini esemplari del concetto oppure, come nei SAM precedenti, punti, box e maschere per la Promptable Visual Segmentation (PVS).
Il modello supporta quindi sia PCS (concetti testuali/esemplari, tutte le istanze) sia PVS (prompt geometrici, una singola istanza) all’interno di un’unica architettura, con la possibilità di fare refinement interattivo aggiungendo o togliendo prompt.

Per i video, SAM 3 aggiunge un meccanismo di tracking che assegna identità coerenti agli oggetti nel tempo, usando sia le feature visive sia la coerenza del concetto specificato nel prompt.
Questo permette, ad esempio, di chiedere “segui tutte le yellow school bus lungo il video” e ottenere maschere e ID che restano stabili anche quando l’oggetto si muove, si occlude parzialmente o si ridimensiona.

I numeri dietro le promesse: risultati di SAM 3

Per valutare PCS, gli autori introducono il benchmark SA-Co, che include immagini e video etichettati con concetti e tutte le loro istanze, così da poter misurare quanto bene un modello sa trovare “tutti gli oggetti che corrispondono a un concetto”.
Questo benchmark è pensato per essere “promptable”: si fornisce al modello la stessa descrizione (o gli stessi esempi) usati in annotazione, e si confrontano le sue maschere con le maschere di riferimento, sia in termini di qualità sia di copertura.

Su SA-Co e su altre suite di test, SAM 3 mostra un miglioramento intorno a 2 volte rispetto ai sistemi precedenti per Promptable Concept Segmentation, mantenendo buoni tempi di inferenza e memoria gestibile per immagini e video di dimensioni realistiche.
In particolare, riesce a gestire concetti rari o complessi (ad esempio oggetti piccoli, con texture particolari o definiti da attributi come “persona con zaino giallo”) meglio di pipeline che combinano detector classici e modelli di segmentation separati.

Un aspetto importante è che SAM 3 mantiene e rafforza le capacità di Promptable Visual Segmentation introdotte in SAM e SAM 2, quindi non è un modello “solo ricerca”, ma un upgrade pratico per casi d’uso già supportati in produzione.
Il modello funziona bene anche in zero-shot su domini nuovi, e può essere ulteriormente fine-tunato su dataset specifici per migliorare la qualità in contesti verticali come medical imaging, robotica o annotazione industriale.

Cosa capire bene prima di leggere il paper

PCS vs PVS: due modi di “promptare”

PCS (Promptable Concept Segmentation) significa: dai al modello un concetto (testuale o come immagini di esempio) e chiedigli di trovare tutte le sue istanze nell’immagine o nel video.
PVS (Promptable Visual Segmentation), che già esisteva in SAM e SAM 2, significa invece partire da prompt puramente visivi (punti, box, maschere) per dire “segmenta questo oggetto qui”, in genere una singola istanza per volta.

Nel paper vedrai spesso confronti tra queste due modalità, perché SAM 3 le unifica in un unico modello, permettendo di passare da una all’altra o combinarle nello stesso workflow.
Capire questa distinzione ti aiuta a interpretare gli esperimenti: PCS testa la capacità “semantica” del modello, PVS quella “geometrica” e interattiva ereditata dai SAM precedenti.

Concept prompts: testo ed esempi visivi

I concept prompts testuali sono frasi nominali brevi, come yellow school bus o person wearing a red hat, che vengono codificate da un text encoder e proiettate nello stesso spazio delle feature visive.
Gli esempi visivi sono immagini che contengono il concetto target, da cui si estraggono feature che fungono da “prototipi” da confrontare con l’immagine o il video da segmentare.

SAM 3 può usare solo testo, solo esempi visivi o una combinazione, ad esempio fornendo una frase e qualche immagine per disambiguare un concetto o renderlo più specifico.
Nel leggere il paper, tieni presente che gran parte dell’innovazione sta nel modo in cui testo, esempi e feature visive vengono fusi per guidare sia la detection sia la segmentation.

Open-vocabulary detection e presence head

SAM 3 integra un detector in stile DETR che non è limitato a una lista chiusa di classi, ma lavora in modalità open-vocabulary: può teorizzare bounding box per concetti definiti solo dal prompt.
Questo è possibile perché le query del detector vengono condizionate sui concept prompts, così che il modello “sa cosa cercare” nello spazio visivo anche se non ha una label fissa per quella classe.

Il presence head è una piccola testa di rete che decide se un certo concetto è presente o meno nell’immagine, separando la domanda “c’è questo concetto?” da “dove sono tutte le sue istanze?”.
Questa separazione semplifica l’addestramento: il modello non deve forzare le stesse query a rispondere a domande di classificazione globale e di localizzazione precisa, riducendo conflitti negli obiettivi.

Tracking e identità nel tempo

Per i video, non basta prevedere maschere frame per frame: è fondamentale assegnare a ogni istanza un ID persistente per poterla “seguire” nel tempo.
SAM 3 gestisce il tracking sfruttando sia la similarità tra feature visive dei frame consecutivi sia l’informazione sul concetto, così da mantenere coerenti le identità anche quando ci sono occlusioni o cambi di scala.

Quando nel paper vedi metriche legate al tracking, interpretale come una misura di quanto bene il modello mantiene queste identità coerenti (ad esempio pochi “switch” tra ID e poche istanze perse nel corso del video).
Comprendere questa parte è cruciale se ti interessano applicazioni in robotica, videosorveglianza o annotazione di grandi dataset video.

Mettiamoci alla prova: quiz su SAM 3

Qual è la differenza principale tra Promptable Concept Segmentation (PCS) e Promptable Visual Segmentation (PVS) in SAM 3, in termini di tipo di prompt e numero di istanze prodotte per ciascun prompt.
Perché gli autori hanno introdotto il benchmark SA-Co e che tipo di capacità vogliono misurare con questo nuovo dataset per SAM 3.
Che ruolo giocano i concept prompts testuali in SAM 3 e in che modo differiscono dai prompt basati su punti o box dei SAM precedenti.
A cosa serve il presence head all’interno dell’architettura di SAM 3 e perché è utile separare il riconoscimento globale dalla localizzazione degli oggetti.
In che senso SAM 3 può essere considerato un foundation model per la visione, e quali vantaggi pratici questo offre rispetto a modelli più specializzati per singoli task.
Quali sono i principali vantaggi di SAM 3 rispetto a una pipeline tradizionale “detector + segmentation model” quando si tratta di lavorare con concetti nuovi o rari.
Come gestisce SAM 3 il tracking delle istanze in un video, e perché la combinazione di feature visive e concept prompts è importante per mantenere l’identità nel tempo.
In quali scenari pratici useresti principalmente PCS e in quali invece ti affideresti soprattutto a PVS e alla modalità interattiva ereditata da SAM e SAM 2.

Risposte suggerite (per lo studio autonomo):

PCS usa concept prompts (testo/esempi) e produce tutte le istanze che corrispondono al concetto, mentre PVS usa prompt geometrici (punti, box, maschere) per segmentare tipicamente un’istanza alla volta.
SA-Co serve a misurare in modo standardizzato la capacità di un modello di segmentare tutte le istanze di concetti specificati da prompt, in immagini e video, andando oltre la classica segmentation a classi fisse.
I concept prompts testuali codificano la semantica del concetto in uno spazio condiviso con le feature visive, permettendo a SAM 3 di lavorare in open-vocabulary, a differenza dei prompt puramente geometrici di SAM e SAM 2.
Il presence head decide se un concetto è presente nell’immagine, liberando il resto del modello dal dover contemporaneamente classificare e localizzare, e migliorando la stabilità dell’addestramento.
SAM 3 è un foundation model perché è pre-addestrato su larga scala per compiti generali di detection, segmentation e tracking condizionati da prompt, e può essere riusato o adattato a molti task diversi con poco o nessun fine-tuning.
Rispetto a una pipeline “detector + segmenter”, SAM 3 sfrutta un unico spazio di rappresentazioni condizionato dal concetto, risultando più robusto a concetti non visti e riducendo errori di allineamento tra detection e mask prediction.
Per il tracking, SAM 3 associa le istanze tra frame usando la similarità delle feature e la coerenza del concetto specificato, così da mantenere ID stabili anche con occlusioni o movimenti complessi.
PCS è particolarmente utile per labeling automatico, analisi di dataset complessi e retrieval per concetto, mentre PVS è ideale per annotazione interattiva, refinement fine delle maschere e casi in cui l’utente vuole “indicare” precisamente l’oggetto.

Oltre SAM 3: studi collegati da conoscere

Il SAM originale: Segment Anything Model

Il primo Segment Anything Model è stato introdotto come un modello di Promptable Visual Segmentation, capace di segmentare “qualsiasi cosa” da prompt come punti, box o mask, grazie a un grande image encoder e a un prompt encoder dedicato.
È stato addestrato sul dataset SA-1B, con oltre 1 miliardo di maschere su 11 milioni di immagini, diventando uno dei primi foundation model davvero generici per la segmentation.

SAM ha mostrato forti capacità di zero-shot, cioè di generalizzare a oggetti e domini non visti durante l’addestramento, e ha rapidamente trovato applicazioni in annotazione, editing e computer vision industriale.
SAM 3 eredita queste capacità di PVS e le estende con PCS, offrendo una visione più “semantica” guidata da concetti anziché solo da coordinate.

SAM 2: verso la segmentazione universale di immagini e video

SAM 2 ha esteso il paradigma di Segment Anything ai video, migliorando l’efficienza e l’affidabilità del tracking e della segmentazione interattiva su sequenze temporali.
Ha reso più pratico l’uso di SAM in pipeline di produzione che richiedono editing frame-by-frame, annotazione di grandi dataset video o tracking di oggetti a partire da prompt visivi.

SAM 3 parte direttamente dalle capacità di SAM 2 per PVS nei video e aggiunge la dimensione concettuale, unificando nella stessa architettura il mondo “geometrico” (prompt visivi) e quello “semantico” (prompt concettuali).
Per uno studente di master, ha senso leggere prima i paper e la documentazione di SAM e SAM 2 per capire l’evoluzione architetturale e le scelte di design che portano a SAM 3.

SAM 3D Objects e altre estensioni

Un lavoro collegato interessante è SAM 3D Objects, che sfrutta le maschere e le capacità di SAM per ricostruire oggetti 3D con posa, forma, texture e layout a partire da immagini annotate.
Questa linea mostra come la segmentazione “anything” possa diventare un punto di partenza per task più complessi come la ricostruzione 3D e la comprensione spaziale avanzata.

In parallelo, diversi lavori nella comunità hanno usato SAM come componente di base per open-vocabulary segmentation e labeling automatico, combinandolo con text encoder e modelli linguistici per espandere ulteriormente lo spazio dei concetti.
SAM 3 si inserisce in questa tendenza, ma lo fa integrando nativamente il concetto di Promptable Concept Segmentation nella propria architettura, invece di affidarsi a pipeline esterne.