Olmo 3

stato della ricerca deep learning

Dal modello Olmo3 alla pipeline: perché questo paper conta

Il paper presenta Olmo 3 come una famiglia di language model e thinking model completamente open nelle taglie 7B e 32B, progettata fin dall’inizio per essere studiabile e modificabile lungo tutto il ciclo di vita, non solo come pesi finali rilasciati su Hugging Face.
L’idea centrale è la model flow: invece di vedere il modello come una “foto” finale, Olmo 3 espone tutti gli stadi intermedi, i dataset, il codice e i checkpoint, permettendo di tracciare il comportamento del modello fino ai dati e alle scelte di training che lo hanno generato.

Questo approccio è interessante per chi fa ricerca perché abilita esperimenti sistematici su ogni fase (pretraining, mid-training, long-context, post-training), consentendo ablation study realistici e veri e propri “fork” del modello in punti diversi del pipeline.
In più, Olmo 3 include thinking models che producono esplicitamente catene di ragionamento e si integrano con lo strumento OlmoTrace, che permette di collegare in tempo reale gli step di reasoning ai dati di pretraining, offrendo una trasparenza rara nel panorama attuale.

Dal punto di vista delle prestazioni, Olmo 3-Base 32B risulta il più forte fully open base model del suo segmento, con performance molto competitive rispetto ai migliori modelli open-weights tipo Qwen 2.5 e Gemma 3 su programmazione, lettura e matematica, mantenendo qualità anche con contesti lunghi fino a circa 65K token.
Olmo 3-Think 32B emerge come il più forte fully open thinking model, con risultati vicinissimi ai migliori modelli di reasoning open-weights come la serie Qwen 3 32B, pur essendo addestrato con molti meno token, mentre Olmo 3-Instruct 7B eguaglia o supera Qwen 2.5, Gemma 3 e Llama 3.1 su diversi benchmark di chat, instruction-following e tool use.

Per chi vuole riprodurre o estendere il lavoro, l’ecosistema GitHub è un pezzo fondamentale del contributo: OLMo-core fornisce i building block PyTorch per pretraining, SFT e inferenza, Open Instruct contiene le pipeline di DPO e RLVR per il post-training, OLMo-Eval e OLMES gestiscono la parte di evaluation riproducibile, mentre repository separati descrivono in dettaglio i dataset Dolma 3 e Dolci.

Code, Paper

Indice

Dentro il motore: approcci e tecniche usate

Olmo 3 usa un’architettura decoder-only transformer classica per i moderni language model autoregressivi, ma la novità non è tanto nella struttura del modello quanto nella cura del training pipeline e della tracciabilità degli step.
I modelli vengono rilasciati in varianti 7B e 32B, con contesto fino a 65K token, dimensionate per essere sia competitive in prestazioni sia realisticamente addestrabili e fine-tunabili su hardware di ricerca, non solo in grandi datacenter industriali.

Il pretraining segue una pipeline a più stadi: una prima fase su larga scala per apprendere capacità generali, una fase di mid-training focalizzata su dati più difficili (math, code, reading comprehension, reasoning traces) e una fase finale di long-context extension su documenti molto lunghi.
Questa struttura consente di innestare competenze specifiche (ad esempio più coding o più matematica) in momenti precisi del training e di analizzare come certe abilità emergano o migliorino passando da uno stadio all’altro.

La famiglia di modelli si articola in diversi “percorsi” di post-training: Olmo 3-Base è il modello pre-addestrato generale, Olmo 3-Think è la linea di reasoning basata su chain-of-thought e reinforcement learning, Olmo 3-Instruct è la variante per chat, tool use e instruction-following, e Olmo 3-RL Zero è una pipeline esplicita per esperimenti di reinforcement learning da un base model.
Ogni percorso segue un “recipe” a tre stadi ormai classico ma qui esposto in modo estremamente trasparente: prima SFT su dati supervisionati di alta qualità, poi DPO per preferenze, e infine RLVR come schema di reinforcement learning con reward verificabili.

Sul fronte dati, tutto il pretraining si basa su Dolma 3, una nuova collezione di circa 9.3 trilioni di token che include web, PDF scientifici processati con olmOCR, code, problemi di matematica e testo enciclopedico, da cui viene estratto un mix di pretraining di circa 5.9 trilioni di token con forte enfasi su coding e matematica.
Oltre al mix principale, il paper introduce mix specializzati come Dolma 3 Dolmino per il mid-training su dati difficili e Dolma 3 Longmino per insegnare al modello a gestire inputs lunghi, insieme alla suite Dolci per il post-training su reasoning, tool use e instruction-following.

Per sostenere questa scala, il team usa un training stack molto ottimizzato su cluster di H100: il pretraining 7B arriva a throughput elevati, il codice di SFT è stato migrato in OLMo-core ottenendo circa 8x di aumento di efficienza, e la pipeline di RL è stata resa circa 4x più efficiente con tecniche come continuous batching e in-flight weight updates.
Queste ottimizzazioni rendono possibile replicare o adattare parti significative della pipeline anche con budget computazionali da laboratorio universitario avanzato, non solo da big tech.

Infine, un elemento distintivo è l’integrazione con OlmoTrace, che permette di collegare l’output del modello alle fonti nel dataset Dolma 3 in tempo quasi reale, rendendo il comportamento del language model molto più “auditabile”.
Insieme al rilascio degli script di data processing (inclusi strumenti di deduplicazione fuzzy, decontaminazione e filtraggio qualitativo), questo crea un ciclo completo in cui è possibile non solo studiare il modello, ma anche il percorso dei dati che ne ha plasmato le capacità.

Come va davvero: panoramica dei risultati

Nel paper e nei materiali correlati, Olmo 3-Base 32B emerge come il più forte fully open base model conosciuto dagli autori, superando altre proposte pienamente open come Stanford Marin e Swiss AI Apertus su suite di benchmark che coprono programmazione, comprensione del testo, matematica e ragionamento generale.
Pur essendo “solo” un base model, quindi non specializzato per chat o reasoning esplicito, si avvicina molto (o eguaglia) modelli open-weights di pari dimensione come Qwen 2.5 e Gemma 3, soprattutto quando si considerano anche i benchmark di long-context come RULER.

Olmo 3-Think 32B è il fiore all’occhiello per il reasoning: sui benchmark di ragionamento e matematica come MATH, AIME, OMEGA, BigBenchHard, HumanEvalPlus, PopQA e IFEval, il modello vince o si posiziona a pochi punti di distanza dai migliori modelli open-weights della serie Qwen 3 32B e da specialisti come DeepSeek R1 Distill 32B.
Al tempo stesso, questi risultati vengono ottenuti con un numero di token di training significativamente inferiore rispetto ad alcuni concorrenti, il che rende interessante Olmo 3 anche dal punto di vista dell’efficienza campionaria.

Olmo 3-Think 7B porta lo stesso design nei vincoli di un modello più leggero, mantenendo capacità di reasoning trasparenti e catene di pensiero esplicite, ma con requisiti di memoria molto più bassi, adatti a laptop e workstation con GPU di fascia alta.
Questo lo rende un candidato naturale per progetti di ricerca universitaria che vogliono studiare il comportamento dei thinking model senza dover gestire un 32B su cluster molto costosi.

Olmo 3-Instruct 7B, invece, è ottimizzato per chat, instruction-following e tool use, producendo sequenze più corte dei corrispondenti Think per migliorare l’efficienza in inferenza.
Le valutazioni mostrano che questa variante eguaglia o supera modelli come Qwen 2.5, Gemma 3 e Llama 3.1 di dimensioni comparabili, ed è competitiva con la famiglia Qwen 3 a parità di scala, offrendo una forte alternativa fully open per agenti conversazionali e assistant tool-augmented.

Un aspetto trasversale dei risultati è che tutte queste prestazioni arrivano insieme a un livello di apertura insolitamente alto: oltre ai pesi, vengono rilasciati dataset, script di preprocessing, configurazioni di training, checkpoint intermedi e strumenti di evaluation, il tutto sotto licenze permissive come Apache 2.0.
Questo posiziona Olmo 3 come riferimento per chi cerca modelli non solo potenti, ma anche realmente ispezionabili, riproducibili e riutilizzabili per nuova ricerca.

Chiavi di lettura per affrontare il paper

Per leggere il paper in profondità è utile chiarire prima la distinzione tra le diverse varianti di modello: Base è il language model pre-addestrato generico, Instruct è specializzato per seguire istruzioni, Think enfatizza chain-of-thought e reasoning esplicito, mentre RL Zero è una pipeline di reinforcement learning che parte dal base per costruire comportamenti complessi.
Capire che queste varianti condividono lo stesso zoccolo duro (Olmo 3-Base) ma divergono nei dati e negli obiettivi di post-training è cruciale per interpretare i risultati e le ablation.

Un secondo concetto chiave è quello di thinking model e di inference-time scaling: invece di limitarsi a generare la risposta finale, il modello produce sequenze più lunghe con passaggi intermedi espliciti, che spesso portano a migliori risultati in compiti di ragionamento complesso, a costo di maggiore latenza e costo di inferenza.
Il paper mostra come, con opportuni dati di training (Dolci) e una pipeline RLVR mirata, sia possibile sfruttare questa modalità di ragionamento esplicito per migliorare la robustezza e l’affidabilità del modello in compiti difficili.

Il concetto di model flow è forse la lente interpretativa più importante: vedere l’intera costruzione di Olmo 3 come una pipeline modulare, i cui stadi sono oggetti di studio a sé, permette di pensare agli esperimenti non solo “sul modello” ma “sulla pipeline”.
Per esempio, è possibile chiedersi cosa succede se si cambia la composizione del mix Dolma 3 nel mid-training, se si inserisce più code o meno reasoning traces, o se si modifica la ricetta di RLVR, e questo è esattamente il tipo di scienza dei language model che il progetto vuole abilitare.

Sul fronte dati, è essenziale comprendere la filosofia di data curation: Dolma 3 è costruito con forte deduplicazione, filtraggio qualitativo e rispetto degli standard di raccolta web (esclusione di siti paywalled o che esplicitamente vietano crawling), mentre Dolci aggrega dataset allo stato dell’arte per reasoning, tool use e conversazione.
Questa attenzione consente, da un lato, di ridurre la contaminazione con set di test e, dall’altro, di rendere più interpretabili i collegamenti tra dati e comportamento del modello, soprattutto quando combinata con strumenti come OlmoTrace e decon.

Infine, il framework RLVR (reinforcement learning with verifiable rewards) è un altro punto che merita studio: invece di reward “soft” e difficili da controllare, si punta su ricompense verificabili (per esempio, soluzioni corrette a problemi di matematica o codice eseguibile), che rendono il processo più solido e analizzabile.
Per una tesi o progetto di master, capire come RLVR si combina con SFT e DPO, e quali trade-off introduce tra qualità, stabilità e sicurezza del modello, è una chiave per usare Olmo 3 come piattaforma sperimentale.

Mettiamoci alla prova: quiz su Olmo 3

Domande

  • Perché gli autori insistono sulla distinzione tra “open weights” e vera apertura nel contesto di Olmo 3 e della model flow?
  • Quali sono le principali varianti della famiglia Olmo 3 e a quale tipo di uso è orientata ciascuna di esse?
  • Che ruolo svolge il dataset Dolma 3 nel training di Olmo 3 e in che cosa si differenzia dai mix Dolma 3 Dolmino e Dolma 3 Longmino?
  • Che cosa rende un modello un thinking model nella definizione usata da Olmo 3 e perché questo è particolarmente utile per la ricerca in reinforcement learning?
  • In che modo Olmo 3-Instruct 7B si confronta con modelli open-weights come Qwen 2.5, Gemma 3 e Llama 3.1 in termini di instruction-following e tool use?
  • Qual è lo scopo di OlmoTrace e che tipo di analisi rende possibile per chi studia il comportamento del modello?
  • Perché il training pipeline di Olmo 3 è organizzato in più stadi (pretraining generale, mid-training su dati difficili, long-context extension) invece di un’unica fase monolitica?
  • Che vantaggi pratici offre la scelta di rilasciare un modello 32B completamente open in termini di ricerca e deployment rispetto a modelli più grandi ma chiusi o solo open-weights?

Risposte

  • Gli autori distinguono tra “open weights” e vera apertura perché molti modelli rilasciano solo i pesi ma tengono chiusi dati, pipeline e valutazioni, mentre Olmo 3 rende pubblico l’intero model flow (dataset, codice, checkpoint e tool di evaluation), permettendo una riproducibilità e una auditabilità che vanno oltre la semplice disponibilità dei pesi.
  • La famiglia include almeno quattro percorsi: Olmo 3-Base come language model generico per pretraining e ulteriori fine-tuning, Olmo 3-Think come thinking model con chain-of-thought esplicito per reasoning e RL, Olmo 3-Instruct per scenari di chat, instruction-following e tool use efficienti, e Olmo 3-RL Zero come pipeline dedicata per esperimenti di reinforcement learning su compiti come math, code e general chat.
  • Dolma 3 è la grande collezione di partenza (oltre 9 trilioni di token) da cui viene estratto il mix principale di pretraining con alta proporzione di codice e matematica, mentre Dolma 3 Dolmino è un sotto-mix focalizzato su dati di alta qualità per mid-training su compiti difficili e Dolma 3 Longmino è un mix orientato a documenti lunghi per insegnare al modello a gestire contesti estesi.
  • Un modello è considerato thinking model quando, durante l’inferenza, produce esplicitamente passaggi intermedi di ragionamento invece di una risposta diretta, e in Olmo 3 questa capacità è potenziata da dati di training specifici e da una pipeline RLVR, rendendo il modello ideale come banco di prova per algoritmi di reinforcement learning su reasoning e long-horizon decision making.
  • Olmo 3-Instruct 7B, secondo le valutazioni riportate, eguaglia o supera modelli come Qwen 2.5, Gemma 3 e Llama 3.1 su benchmark di instruction-following, chat e tool use, risultando competitivo anche con la famiglia Qwen 3 di dimensione simile, pur rimanendo un modello completamente open con dataset e pipeline documentati.
  • OlmoTrace serve a tracciare le risposte del modello fino alle porzioni del dataset Dolma 3 che possono averle influenzate, consentendo di vedere da dove potrebbero provenire certe conoscenze o allucinazioni e rendendo possibile un’analisi fine-grained del legame tra dati di training e comportamento del language model.
  • Il pipeline multi-stadio consente di separare fasi con obiettivi diversi: prima si costruiscono capacità linguistiche generali, poi si rafforzano abilità specifiche su math, code e reasoning con un mix mirato, e infine si insegna al modello a gestire contesti molto lunghi, rendendo più facile capire l’impatto di ciascuno stadio rispetto a un training unico e indifferenziato.
  • Un 32B completamente open come Olmo 3-Base o Olmo 3-Think offre un equilibrio tra potenza e praticità: è abbastanza grande da essere competitivo con i migliori modelli open-weights, ma ancora gestibile su hardware accessibile (ad esempio una singola GPU da 80GB), consentendo a gruppi di ricerca e piccole aziende di fare fine-tuning, RL e deployment senza dipendere da API chiuse.

Intorno a Olmo 3: studi e progetti collegati

Olmo 3 si inserisce in una linea di lavori che parte dai primi modelli OLMo, concepiti come “open language models” per accelerare la scienza dei language model attraverso rilascio di codice, dati e pipeline riproducibili, e prosegue con OLMo 2, che già mostrava come modelli open possano avvicinarsi a sistemi commerciali come GPT-4o mini con consumi di compute molto più bassi.
Il passaggio a Olmo 3 rappresenta un’evoluzione di questa filosofia, spostando il focus dalla sola apertura di modello e dati all’apertura dell’intero model flow, con enfasi sul reasoning e sulla trasparenza dei thinking model.

La serie di dataset Dolma costituisce un altro pilastro correlato: è un’iniziativa per creare corpora di pretraining completamente documentati e ricostruibili, di cui Dolma 3 è l’ultima iterazione con mix mirati e forte decontaminazione rispetto ai benchmark di valutazione.
Per chi studia data-centric deep learning, Dolma 3 offre un caso di studio di grande scala su come qualità, deduplicazione e composizione del mix influenzino la qualità del language model.

La suite Dolci per il post-training è strettamente legata ad altri lavori contemporanei su instruction tuning e preference learning, ma qui viene integrata in un framework completo SFT+DPO+RLVR con mix separati per ogni stadio, pensato per reasoning, tool use e conversazione di alta qualità.
Per studenti e ricercatori interessati a come i dati di post-training influenzino capacità come chain-of-thought, tool use o sicurezza, Dolci rappresenta una base aperta riutilizzabile.

Infine, l’ecosistema di evaluation OLMES e OLMo-Eval è un tassello importante del quadro, perché consente di eseguire in modo riproducibile l’ampia batteria di benchmark usata nel technical report di Olmo 3, inclusa la collezione OlmoBaseEval pensata per lo sviluppo dei base model.
Questi strumenti rendono praticabile per un laboratorio accademico il compito di confrontare varianti di modello, ricette di training e mix di dati sugli stessi task usati dagli autori, portando l’idea di “science of language models” un passo più vicino alla pratica quotidiana della ricerca.

Torna in alto