Novità AI della 4ª settimana di novembre 2025 (24-30 novembre)

stato della ricerca deep learning

La quarta settimana di novembre 2025 (24-30 novembre) è stata una di quelle in cui, se ti giri un attimo, ti sei già perso tre paper e due nuovi modelli SOTA. Se cerchi novità AI dell’ultima settimana, ultime notizie AI e Deep Learning o ultime scoperte IA novembre 2025, questa è la sintesi completa che cerchi.

In questo recap trovi:

  • nuovi agenti LLM che imparano a usare meglio tool e browser con vincoli di costo precisi (Budget-Aware Tool-Use, DR Tulu, Fara-7B)
  • ottimizzatori e tecniche di training per spremere di più i modelli (SSA, ROOT, SAPO)
  • un filone enorme sul ragionamento visivo/latente continuo (Chain-of-Visual-Thought, Monet, CLaRa, Continuous Thought Machines)
  • avanzamenti nella generazione multimodale (Harmony per audio+video, Z-Image per immagini efficienti, TiDAR per testo ultra-veloce)
  • nuovi modelli generalisti per developer e aziende (Qwen3-VL, Gemini 3 Pro, Claude Opus 4.5)
  • uno sguardo molto pragmatico a chi deve lavorare con tutto questo: Machine Learning Engineer e chi li assume.

Ogni sezione rimanda ai miei approfondimenti sul blog, così puoi entrare nei dettagli quando qualcosa ti interessa davvero.

Panoramica veloce: le novità AI di questa settimana in 60 secondi

  • L’aggiornamento chiave sugli agenti AI
    → Gli agenti imparano a usare tool e web in modo “budget-aware” con Budget-Aware Tool-Use (guida completa) e a fare deep research multi-step con DR Tulu (guida).

  • Novità fondamentali su training e ottimizzazione
    SSA rende l’attenzione sparsa molto più stabile, ROOT introduce un nuovo ottimizzatore robusto, SAPO stabilizza l’RL per LLM e viene usato anche per Qwen3-VL. Approfondisco tutto qui:

  • SSA: Sparse Sparse Attention

  • ROOT Optimizer
  • Soft Adaptive Policy Optimization (SAPO)

  • Ultime scoperte su visione e ragionamento multimodale
    Chain-of-Visual-Thought (CoVT), Monet e CLaRa portano il ragionamento nel latent space continuo, mentre Continuous Thought Machines cambia proprio l’architettura di rete pensando in modo “continuo” nel tempo.

  • CoVT: Chain-of-Visual-Thought

  • Monet
  • CLaRa
  • Continuous Thought Machines

  • Generazione: immagini, audio, video e testo
    Harmony sincronizza audio e video meglio degli open-source precedenti, Z-Image offre text-to-image potente ma “solo” 6B parametri e single-stream diffusion, TiDAR unisce diffusione e autoregressione per generazione di testo più veloce.

  • Harmony

  • Z-Image
  • TiDAR

  • Modelli che devi conoscere a fine novembre 2025
    Qwen3-VL per multimodale lungo contesto, Gemini 3 Pro come modello generalista di Google e Claude Opus 4.5 come nuovo riferimento per coding e agenti.

  • Qwen3-VL: guida completa

  • Guida ai prompt per Gemini 3 Pro
  • Claude Opus 4.5 e programmazione

  • Da qui in giù andiamo molto più in profondità: “Quali sono le ultime scoperte IA di novembre 2025 sul ragionamento multimodale?” o “Che modelli usare oggi per sviluppare agenti AI?”.

1. Agenti AI e deep research: verso agenti “consapevoli del budget”

1.1 Budget-Aware Tool-Use: agenti che sanno quanto “stanno spendendo”

Nel paper “Budget-Aware Tool-Use Enables Effective Agent Scaling” gli autori mostrano un limite interessante: se dai a un agente LLM più budget di tool-call (API, web search, ecc.), non è detto che migliori. Se il modello non è “consapevole del budget”, spreca chiamate e satura la curva costo-prestazioni.

Nella mia guida in italiano trovi tutti i dettagli:
Budget-Aware Tool-Use: guida completa agli agenti LLM “consapevoli del budget”

Punti chiave:

  • introduzione del Budget Tracker, un plug-in leggero che tiene il modello costantemente aggiornato sul budget residuo
  • proposta di BATS (Budget Aware Test-time Scaling), un framework che decide se “affondare” su una traccia o cambiare strada in base alle risorse rimaste
  • definizione di un costo unificato (token + tool) per studiare davvero il trade-off costo-performance

FAQ tipiche:

  • Domanda: “Perché parlare di budget è importante negli agenti AI?”
    Risposta breve: perché senza budget awareness l’agente non ottimizza, spreca chiamate di tool e non scala bene a compiti complessi; con framework come BATS si ottiene una curva costo-performance molto più favorevole.

1.2 DR Tulu: Reinforcement Learning con rubriche che evolvono

DR Tulu spinge il concetto di deep research: non solo rispondere a domande brevi, ma condurre ricerche multi-step con risposte lunghe, citate e strutturate.

Il contributo tecnico centrale è RLER (Reinforcement Learning with Evolving Rubrics):

  • si costruiscono rubriche (criteri di valutazione) che descrivono cosa significa una risposta “buona”
  • queste rubriche co-evolvono con il modello durante il training, incorporando ciò che il modello scopre strada facendo
  • il risultato è DR Tulu-8B, un modello open 8B che regge il confronto con sistemi proprietari di deep research su benchmark in ambito scienza, salute e domande generali.

Per chi lavora con:

  • prodotti di knowledge management: dà un blueprint su come passare dalla semplice RAG ai research agent realmente multi-step
  • valutazione risposta lunga: mostra come sostituire reward semplici tipo “match con ground truth” con rubriche evolutive.

1.3 OpenMMReasoner: ricetta aperta per il ragionamento multimodale

Con OpenMMReasoner arriva una ricetta open e completa per addestrare modelli di ragionamento multimodale (testo+immagini).

Cosa fa di diverso:

  • costruisce un dataset SFT “cold-start” con ~874K esempi, validati step-by-step
  • segue con una fase di RL su ~74K esempi mirata a stabilizzare e affinare le abilità di ragionamento
  • mostra che la qualità e la diversità dei dati (sorgenti e risposte) sono determinanti per le prestazioni multimodali
  • migliora del ~11.6% rispetto a Qwen2.5-VL-7B su nove benchmark di ragionamento multimodale.

OpenMMReasoner è oggi uno dei blueprint più chiari per chi vuole creare modelli multimodali open con forti capacità di ragionamento, non solo di percezione.

1.4 Fara-7B: l’agente AI che usa il tuo PC, davvero

Se parliamo di “agenti AI” nel senso letterale – modelli che cliccano, scrivono, aprono app sul tuo PC – allora Fara-7B di Microsoft è probabilmente la novità più concreta della settimana.([Microsoft][8])

In breve:

  • è un small language model da 7B progettato come Computer Use Agent
  • prende in input screenshot + contesto testuale e genera pensieri + azioni (clic, scrittura, navigazione)
  • è pensato per girare on-device, riducendo latenza e migliorando privacy
  • è competitivo con stack più grandi che combinano vari LLM per “computer use”.

Nel mio articolo spiego come:

Fara-7B: l’agente AI che usa il tuo PC

Domande tipiche:

  • “Qual è la differenza fra Fara-7B e un normale LLM da chat?”
    → Fara-7B è addestrato per interpretare lo stato grafico del PC (screenshot) e produrre azioni sul sistema, non solo testo.
  • “Serve il cloud?”
    → è progettato proprio per girare localmente, sfruttando CPU/GPU del device e mantenendo i dati sensibili in locale.

2. Training e ottimizzazione: SSA, ROOT e SAPO

Se cerchi “ultime notizie AI e Deep Learning” dal punto di vista di chi addestra modelli, questa settimana è stata densissima.

2.1 SSA: Sparse Sparse Attention più stabile e più “vera” della full attention

In SSA: guida completa racconto un’idea molto interessante: la sparse attention nativa spesso introduce un paradosso – finisce per essere meno sparsa di quella full, perché durante il training i token esclusi non ricevono gradienti e non imparano a “stare zitti”.

SSA risolve così:

  • considera insieme sparse e full attention durante il training
  • allinea bidirezionalmente gli output nello feature space, assicurando che la versione sparsa rimanga fedele a quella full
  • mantiene il flusso di gradiente verso tutti i token, anche quelli raramente selezionati
  • migliora prestazioni sia in modalità sparsa che full e scala bene il budget di sparsità.

Risultato pratico:
→ se devi servire contesti lunghi ma sei limitato da memoria/latency, SSA è un tassello importante per tenere alta la qualità.

2.2 ROOT: un nuovo ottimizzatore robusto per LLM

ROOT (Robust Orthogonalized Optimizer) affronta due problemi chiave degli ottimizzatori moderni (tipo Muon): fragilità dimensionale nell’ortogonalizzazione e sensibilità al rumore/outlier.

Caratteristiche salienti:

  • orthogonalization dimension-robust via iterazioni di Newton adattive
  • schema prossimale per smorzare outlier senza distruggere la direzione utile del gradiente
  • convergenza più stabile e veloce rispetto ad Adam/Muon in scenari non-convessi e rumorosi.

Per keyword come “ultime scoperte IA novembre 2025 ottimizzatori”, ROOT è uno dei nomi da ricordare se ti interessa:

  • pre-training di LLM su dataset “sporchi”
  • training su hardware con precisione mista
  • scenari dove vuoi ridurre al minimo instabilità e divergenze.

2.3 SAPO: Soft Adaptive Policy Optimization per RL su LLM

Con SAPO, o Soft Adaptive Policy Optimization, la community fa un passo avanti sulla stabilità della RL per LLM, specialmente su modelli MoE.

Differenze chiave rispetto a GSPO/GRPO:

  • sostituisce la hard clipping band con un gate morbido controllato da una temperatura, che attenua ma non annulla gli update off-policy
  • mantiene la coerenza a livello di sequenza, ma è token-adaptive: riduce solo i contributi dei token problematici invece di cassare l’intera sequenza
  • offre un trust region continuo, migliorando stabilità e sample efficiency.

Viene usato, tra l’altro, per addestrare la serie Qwen3-VL – e infatti molti dei risultati di quel modello sono strettamente legati a questa scelta di policy optimization.

3. Ragionamento visivo e latente: CoVT, Monet, CLaRa, CTM

Una delle ultime scoperte IA di novembre 2025 che secondo me lascerà il segno è il passaggio dal “pensare solo con token di testo” al pensare in spazi visuali/latenti continui.

3.1 Chain-of-Visual-Thought (CoVT): catene di pensiero… visive

Nel mio articolo Chain-of-Visual-Thought: guida completa descrivo CoVT come il gemello multimodale della Chain-of-Thought: invece di usare solo step testuali, il modello genera anche token visivi continui che rappresentano profondità, segmentazioni, bordi, layout, ecc.

In pratica:

  • distilla conoscenza da vision expert leggeri in ~20 token visivi
  • durante il training li usa per ricostruire segnali densi (depth, segmentation, DINO features…)
  • in inference ragiona direttamente in questo spazio visuale continuo, con la possibilità opzionale di decodificare predizioni dense per interpretabilità.

Risultato: miglioramenti dal +3% al +16% su benchmark di percezione/visione multimodale (CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, HRBench).

3.2 Monet: ragionamento nel latent visual space

Se CoVT aggiunge “visual thought” esplicito, Monet fa un passo oltre: il modello ragiona direttamente nel latent visual space, producendo embedding continui come “pensieri visivi intermedi”.

Componenti principali:

  • pipeline di SFT in tre fasi per allineare testo e latenti visivi con costi computazionali gestibili
  • dataset dedicato Monet-SFT-125K, con catene ragionamento (CoT) su immagini reali, chart, OCR, geometria
  • un nuovo metodo RL, VLPO (Visual-latent Policy Optimization), che integra esplicitamente i latenti visivi nel policy gradient.

Perché conta:

  • migliora su benchmark di percezione e ragionamento visivo e generalizza bene su compiti astratti
  • offre un template concreto per chi vuole sviluppare MLLM che “pensano” davvero con immagini, non solo le descrivono.

3.3 CLaRa: Retrieval e generazione uniti nello stesso spazio continuo

CLaRa (Continuous Latent Reasoning) affronta il limite classico della RAG:

  • contesti lunghi
  • training disgiunto fra retrieval e generazione.

La soluzione proposta:

  • comprimere i documenti in vettori densi “retrievable” con un framework chiamato SCP (key-preserving data synthesis)
  • fare retrieval e generazione in un unico spazio continuo condiviso
  • ottimizzare retrieval+LLM in modo congiunto, invece di trattarli come due componenti staccate.

In ottica “ultime notizie AI e Deep Learning per RAG”, CLaRa mostra:

  • come ridurre il peso del contesto lungo
  • come ottenere embedding compressi ma ancora ricchi semanticamente
  • come sfruttare RL e SFT per unire in pratica search e generazione.

3.4 Continuous Thought Machines (CTM): un’architettura per il “pensiero continuo”

Nel pezzo Continuous Thought Machines: una nuova architettura per il “pensiero continuo” racconto la proposta di CTM, che nasce dalla domanda: “E se i nostri modelli avessero davvero una dimensione interna temporale, come i cervelli biologici?”

Le idee chiave:

  • introduzione di una dimensione temporale interna decoupled dai dati d’ingresso
  • ogni neurone ha weight per elaborare una storia di segnali nel tempo, non solo input istantanei
  • la sincronizzazione neurale diventa una rappresentazione latente diretta
  • il modello può usare compute adattivo: “pensa meno” per compiti semplici, “di più” per quelli complessi.

CTM mostra buone prestazioni su compiti molto diversi (ImageNet, maze, sorting, Q&A, RL), ma soprattutto:

rappresenta un cambio di paradigma per chi studia architetture più biologicamente plausibili e vuole superare l’idea di rete puramente feed-forward.

4. Generazione multimodale: Harmony, Z-Image, TiDAR

4.1 Harmony: sincronizzare davvero audio e video

Harmony mira a chiudere il gap tra modelli chiusi stile Sora/Veo e open-source per la generazione audio-video.

Problemi che individua:

  1. Correspondence Drift: i latenti audio e video si evolvono in parallelo ma si “scollegano”
  2. Attenzione globale inefficiente, che non afferra bene i segnali temporali fini
  3. Bias intra-modale nelle classiche CFG, che rafforzano la condizione ma non la sincronizzazione fra modalità.

Soluzioni:

  • paradigma di training Cross-Task Synergy, sfruttando audio→video e video→audio come supervisione forte
  • modulo di Global-Local Decoupled Interaction per allineare in modo efficiente stile e tempo
  • SyncCFG, una variante di CFG che estrae e amplifica esplicitamente il segnale di sincronizzazione.

Risultato: stato dell’arte open su qualità e, soprattutto, allineamento audio-video.

4.2 Z-Image: generazione di immagini con Single-Stream Diffusion Transformer

In Z-Image: generazione efficiente di immagini con Single-Stream Diffusion Transformer esploro la nuova famiglia di modelli di Alibaba: 6B parametri, ma prestazioni da top-tier grazie a una architettura single-stream DiT.([tongyi-mai.github.io][14])

Punti chiave:

  • Single-Stream Diffusion Transformer: testo, token semantici visivi e latenti VAE delle immagini vengono trattati come un’unica sequenza
  • questo migliora efficienza parametrica e riduce la complessità rispetto a dual-stream
  • varianti come Z-Image-Turbo raggiungono inferenza sub-secondo su GPU tipo H800 con soli 8 passi di diffusione
  • supporto a rendering testuale bilingue (EN/ZH) robusto e alta qualità fotorealistica.

Per chi cerca modello open per:

  • generazione di immagini ad alta qualità con vincoli di latency
  • integrazione in pipeline produttive su GPU non enormi
    → Z-Image è uno dei candidati più forti in questo momento.

4.3 TiDAR: Think in Diffusion, Talk in Autoregression

TiDAR risponde a una domanda molto pratica: “Possiamo avere la qualità degli autoregressivi con la parallelizzazione delle diffusion LM?”

La sua ricetta:

  • usa la diffusione per la fase di drafting (Think in Diffusion), generando una bozza di sequenza in parallelo
  • conclude con sampling autoregressivo (Talk in Autoregression) per mantenere la qualità tipica dei modelli AR
  • il tutto in un solo forward pass, usando structured attention masks e supporto KV-cache esatto.

Risultato:

  • 4.7-5.9x token/sec rispetto a AR puri,
  • qualità comparabile agli AR su benchmark di generazione e likelihood,
  • throughput superiore rispetto a speculative decoding.

Se cerchi ultime novità AI per generazione di testo veloce, TiDAR è il riferimento più interessante di questa settimana.

5. I grandi modelli generalisti: Qwen3-VL, Gemini 3 Pro, Claude Opus 4.5

5.1 Qwen3-VL: multimodale con contesto fino a 256K token

In Qwen3-VL: guida completa analizzo il nuovo technical report del modello multimodale di Alibaba.

Caratteristiche principali:

  • supporto nativo a contesti fino a 256K token, con input interleaved (testo, immagini, video)
  • famiglia di modelli densi (2B/4B/8B/32B) e MoE (30B-A3B/235B-A22B) per diversi trade-off latency/qualità
  • testo-only molto forte (a pari livello o sopra backbone solo-testuali)

  • comprensione long-context affidabile, anche su documenti e video lunghi
  • ragionamento multimodale avanzato, con risultati top su MMMU, MathVista, MathVision.

Upgrade architetturali notevoli:

  • interleaved-MRoPE migliorato per modellare spazio e tempo in immagini/video
  • integrazione DeepStack per usare meglio feature multi-livello del ViT
  • time alignment testuale per i video, evoluzione di T-RoPE.

5.2 Gemini 3 Pro: best practices di prompting

Nel pezzo Guida completa ai prompt per Gemini 3 Pro raccolgo e sistematizzo le migliori pratiche emerse per usare il nuovo modello di Google.

Le linee guida principali riguardano:

  • istruzioni chiare e strutturate (ruolo, task, vincoli, formato output)
  • uso della “dynamic thinking” di Gemini 3 per bilanciare latenza e qualità del ragionamento

5.3 Claude Opus 4.5: il nuovo riferimento per coding e agenti

In Claude Opus 4.5 Anthropic: nuovo modello AI per il futuro della programmazione spiego perché questo modello è particolarmente importante per chi sviluppa software e agenti.([Anthropic][17])

Secondo Anthropic: è “il miglior modello al mondo per coding, agent e computer use”

Punti pratici per aziende/dev:

  • costi/efficienza: a parità di qualità coding può usare molti meno token rispetto ad altre varianti della famiglia
  • forte integrazione con ambienti tipo Excel, Chrome, tool aziendali
  • nelle comparazioni pubbliche supera spesso Gemini 3 Pro in compiti di sviluppo e manutenzione di progetti grandi.

6. Lato lavoro: trovare il profilo Machine Learning Engineer migliore

Nell’articolo “Machine Learning Engineer: la guida definitiva per trovare il profilo giusto nel 2025” puoi trovare delle linee guida e consigli pratici basati sulla mia esperienza in campo hiring mle in azienda.

7. FAQ – Domande frequenti sulle novità AI della 4ª settimana di novembre

7.1 Qual è la novità più importante per chi sviluppa agenti AI?

Se guardiamo solo agli agenti:

  • Budget-Aware Tool-Use ti insegna come scalare gli agenti su web/tool senza esplodere i costi, introducendo consapevolezza del budget.
  • DR Tulu ti mostra come addestrare agenti di deep research con RL su rubriche evolutive, invece che su reward banali.
  • Fara-7B porta gli agenti sul tuo PC, con un modello piccolo ma ottimizzato per interagire col desktop.

Se devi sceglierne uno per iniziare:
Budget-Aware Tool-Use per chi costruisce agenti su API/tool;
Fara-7B se vuoi fare esperimenti di computer use locale.

7.2 Quali sono le ultime scoperte IA novembre 2025 su ragionamento multimodale?

Qui il trio più interessante è:

  • Chain-of-Visual-Thought (CoVT): aggiunge catene di pensiero visive con token continui.
  • Monet: fa ragionare il modello direttamente nel latent visual space, con supervised distillation + VLPO.
  • OpenMMReasoner: fornisce una ricetta completa (SFT+RL) per addestrare modelli di ragionamento multimodale open.

A questi puoi aggiungere Qwen3-VL come modello di base potente e CTM come nuova architettura per pensiero continuo.

7.3 Se voglio aggiornare oggi la mia pipeline di generazione immagini, da dove parto?

  • Se ti interessa qualità + efficienza, guarda Z-Image: 6B parametri, single-stream DiT, varianti Turbo per inferenza veloce.
  • Se vuoi una pipeline unificata testo→immagine/video, segui anche i pattern di MammothModa2 (citato nella documentazione su single-stream/AR-diffusion) e Harmony per audio-video.

In generale, la direzione è chiara:

  • modelli più piccoli ma ben ottimizzati
  • architetture single-stream per combinare condizioni (testo, immagine, latenti)
  • few-step diffusion con distillazione aggressiva.

7.4 Quali modelli conviene provare subito in azienda?

Dipende dal caso d’uso, ma una shortlist pratica post 30 novembre 2025 è:

  • Per assistenti generali e coding
    • Gemini 3 Pro (soprattutto per integrazione con ecosistema Google).
    • Claude Opus 4.5 ($$)
  • Per multimodality
    • Qwen3-VL (open)
    • OpenMMReasoner se ti serve un framework di training open da cui partire.
  • Per agenti “operativi”
    • Fara-7B per il computer use locale
    • DR Tulu come riferimento per deep research.

7.6 Qual è la migliore risorsa se voglio un riassunto settimanale delle novità AI in italiano?

Ogni settimana su mauroscia.it pubblico una rassegna come questa, con:

  • selezione ragionata dei paper più importanti
  • collegamenti alle guide lunghe (in italiano)
  • un focus chiaro su impatti pratici per dev, aziende e recruiter.

8. Come proseguire: tutti gli approfondimenti di questa settimana su mauroscia.it

Per chi vuole salvare la pagina e tornare con calma, ecco un indice dei contenuti pubblicati che ho usato come sorgenti per questa rassegna:

Torna in alto