La quarta settimana di novembre 2025 (24-30 novembre) è stata una di quelle in cui, se ti giri un attimo, ti sei già perso tre paper e due nuovi modelli SOTA. Se cerchi novità AI dell’ultima settimana, ultime notizie AI e Deep Learning o ultime scoperte IA novembre 2025, questa è la sintesi completa che cerchi.
In questo recap trovi:
- nuovi agenti LLM che imparano a usare meglio tool e browser con vincoli di costo precisi (Budget-Aware Tool-Use, DR Tulu, Fara-7B)
- ottimizzatori e tecniche di training per spremere di più i modelli (SSA, ROOT, SAPO)
- un filone enorme sul ragionamento visivo/latente continuo (Chain-of-Visual-Thought, Monet, CLaRa, Continuous Thought Machines)
- avanzamenti nella generazione multimodale (Harmony per audio+video, Z-Image per immagini efficienti, TiDAR per testo ultra-veloce)
- nuovi modelli generalisti per developer e aziende (Qwen3-VL, Gemini 3 Pro, Claude Opus 4.5)
- uno sguardo molto pragmatico a chi deve lavorare con tutto questo: Machine Learning Engineer e chi li assume.
Ogni sezione rimanda ai miei approfondimenti sul blog, così puoi entrare nei dettagli quando qualcosa ti interessa davvero.
Panoramica veloce: le novità AI di questa settimana in 60 secondi
L’aggiornamento chiave sugli agenti AI
→ Gli agenti imparano a usare tool e web in modo “budget-aware” con Budget-Aware Tool-Use (guida completa) e a fare deep research multi-step con DR Tulu (guida).Novità fondamentali su training e ottimizzazione
→ SSA rende l’attenzione sparsa molto più stabile, ROOT introduce un nuovo ottimizzatore robusto, SAPO stabilizza l’RL per LLM e viene usato anche per Qwen3-VL. Approfondisco tutto qui:- ROOT Optimizer
Ultime scoperte su visione e ragionamento multimodale
→ Chain-of-Visual-Thought (CoVT), Monet e CLaRa portano il ragionamento nel latent space continuo, mentre Continuous Thought Machines cambia proprio l’architettura di rete pensando in modo “continuo” nel tempo.- Monet
- CLaRa
Generazione: immagini, audio, video e testo
→ Harmony sincronizza audio e video meglio degli open-source precedenti, Z-Image offre text-to-image potente ma “solo” 6B parametri e single-stream diffusion, TiDAR unisce diffusione e autoregressione per generazione di testo più veloce.- Z-Image
Modelli che devi conoscere a fine novembre 2025
→ Qwen3-VL per multimodale lungo contesto, Gemini 3 Pro come modello generalista di Google e Claude Opus 4.5 come nuovo riferimento per coding e agenti.- Guida ai prompt per Gemini 3 Pro
Da qui in giù andiamo molto più in profondità: “Quali sono le ultime scoperte IA di novembre 2025 sul ragionamento multimodale?” o “Che modelli usare oggi per sviluppare agenti AI?”.
1. Agenti AI e deep research: verso agenti “consapevoli del budget”
1.1 Budget-Aware Tool-Use: agenti che sanno quanto “stanno spendendo”
Nel paper “Budget-Aware Tool-Use Enables Effective Agent Scaling” gli autori mostrano un limite interessante: se dai a un agente LLM più budget di tool-call (API, web search, ecc.), non è detto che migliori. Se il modello non è “consapevole del budget”, spreca chiamate e satura la curva costo-prestazioni.
Nella mia guida in italiano trovi tutti i dettagli:
Budget-Aware Tool-Use: guida completa agli agenti LLM “consapevoli del budget”
Punti chiave:
- introduzione del Budget Tracker, un plug-in leggero che tiene il modello costantemente aggiornato sul budget residuo
- proposta di BATS (Budget Aware Test-time Scaling), un framework che decide se “affondare” su una traccia o cambiare strada in base alle risorse rimaste
- definizione di un costo unificato (token + tool) per studiare davvero il trade-off costo-performance
FAQ tipiche:
- Domanda: “Perché parlare di budget è importante negli agenti AI?”
Risposta breve: perché senza budget awareness l’agente non ottimizza, spreca chiamate di tool e non scala bene a compiti complessi; con framework come BATS si ottiene una curva costo-performance molto più favorevole.
1.2 DR Tulu: Reinforcement Learning con rubriche che evolvono
DR Tulu spinge il concetto di deep research: non solo rispondere a domande brevi, ma condurre ricerche multi-step con risposte lunghe, citate e strutturate.
Il contributo tecnico centrale è RLER (Reinforcement Learning with Evolving Rubrics):
- si costruiscono rubriche (criteri di valutazione) che descrivono cosa significa una risposta “buona”
- queste rubriche co-evolvono con il modello durante il training, incorporando ciò che il modello scopre strada facendo
- il risultato è DR Tulu-8B, un modello open 8B che regge il confronto con sistemi proprietari di deep research su benchmark in ambito scienza, salute e domande generali.
Per chi lavora con:
- prodotti di knowledge management: dà un blueprint su come passare dalla semplice RAG ai research agent realmente multi-step
- valutazione risposta lunga: mostra come sostituire reward semplici tipo “match con ground truth” con rubriche evolutive.
1.3 OpenMMReasoner: ricetta aperta per il ragionamento multimodale
Con OpenMMReasoner arriva una ricetta open e completa per addestrare modelli di ragionamento multimodale (testo+immagini).
Cosa fa di diverso:
- costruisce un dataset SFT “cold-start” con ~874K esempi, validati step-by-step
- segue con una fase di RL su ~74K esempi mirata a stabilizzare e affinare le abilità di ragionamento
- mostra che la qualità e la diversità dei dati (sorgenti e risposte) sono determinanti per le prestazioni multimodali
- migliora del ~11.6% rispetto a Qwen2.5-VL-7B su nove benchmark di ragionamento multimodale.
OpenMMReasoner è oggi uno dei blueprint più chiari per chi vuole creare modelli multimodali open con forti capacità di ragionamento, non solo di percezione.
1.4 Fara-7B: l’agente AI che usa il tuo PC, davvero
Se parliamo di “agenti AI” nel senso letterale – modelli che cliccano, scrivono, aprono app sul tuo PC – allora Fara-7B di Microsoft è probabilmente la novità più concreta della settimana.([Microsoft][8])
In breve:
- è un small language model da 7B progettato come Computer Use Agent
- prende in input screenshot + contesto testuale e genera pensieri + azioni (clic, scrittura, navigazione)
- è pensato per girare on-device, riducendo latenza e migliorando privacy
- è competitivo con stack più grandi che combinano vari LLM per “computer use”.
Nel mio articolo spiego come:
Fara-7B: l’agente AI che usa il tuo PC
Domande tipiche:
- “Qual è la differenza fra Fara-7B e un normale LLM da chat?”
→ Fara-7B è addestrato per interpretare lo stato grafico del PC (screenshot) e produrre azioni sul sistema, non solo testo. - “Serve il cloud?”
→ è progettato proprio per girare localmente, sfruttando CPU/GPU del device e mantenendo i dati sensibili in locale.
2. Training e ottimizzazione: SSA, ROOT e SAPO
Se cerchi “ultime notizie AI e Deep Learning” dal punto di vista di chi addestra modelli, questa settimana è stata densissima.
2.1 SSA: Sparse Sparse Attention più stabile e più “vera” della full attention
In SSA: guida completa racconto un’idea molto interessante: la sparse attention nativa spesso introduce un paradosso – finisce per essere meno sparsa di quella full, perché durante il training i token esclusi non ricevono gradienti e non imparano a “stare zitti”.
SSA risolve così:
- considera insieme sparse e full attention durante il training
- allinea bidirezionalmente gli output nello feature space, assicurando che la versione sparsa rimanga fedele a quella full
- mantiene il flusso di gradiente verso tutti i token, anche quelli raramente selezionati
- migliora prestazioni sia in modalità sparsa che full e scala bene il budget di sparsità.
Risultato pratico:
→ se devi servire contesti lunghi ma sei limitato da memoria/latency, SSA è un tassello importante per tenere alta la qualità.
2.2 ROOT: un nuovo ottimizzatore robusto per LLM
ROOT (Robust Orthogonalized Optimizer) affronta due problemi chiave degli ottimizzatori moderni (tipo Muon): fragilità dimensionale nell’ortogonalizzazione e sensibilità al rumore/outlier.
Caratteristiche salienti:
- orthogonalization dimension-robust via iterazioni di Newton adattive
- schema prossimale per smorzare outlier senza distruggere la direzione utile del gradiente
- convergenza più stabile e veloce rispetto ad Adam/Muon in scenari non-convessi e rumorosi.
Per keyword come “ultime scoperte IA novembre 2025 ottimizzatori”, ROOT è uno dei nomi da ricordare se ti interessa:
- pre-training di LLM su dataset “sporchi”
- training su hardware con precisione mista
- scenari dove vuoi ridurre al minimo instabilità e divergenze.
2.3 SAPO: Soft Adaptive Policy Optimization per RL su LLM
Con SAPO, o Soft Adaptive Policy Optimization, la community fa un passo avanti sulla stabilità della RL per LLM, specialmente su modelli MoE.
Differenze chiave rispetto a GSPO/GRPO:
- sostituisce la hard clipping band con un gate morbido controllato da una temperatura, che attenua ma non annulla gli update off-policy
- mantiene la coerenza a livello di sequenza, ma è token-adaptive: riduce solo i contributi dei token problematici invece di cassare l’intera sequenza
- offre un trust region continuo, migliorando stabilità e sample efficiency.
Viene usato, tra l’altro, per addestrare la serie Qwen3-VL – e infatti molti dei risultati di quel modello sono strettamente legati a questa scelta di policy optimization.
3. Ragionamento visivo e latente: CoVT, Monet, CLaRa, CTM
Una delle ultime scoperte IA di novembre 2025 che secondo me lascerà il segno è il passaggio dal “pensare solo con token di testo” al pensare in spazi visuali/latenti continui.
3.1 Chain-of-Visual-Thought (CoVT): catene di pensiero… visive
Nel mio articolo Chain-of-Visual-Thought: guida completa descrivo CoVT come il gemello multimodale della Chain-of-Thought: invece di usare solo step testuali, il modello genera anche token visivi continui che rappresentano profondità, segmentazioni, bordi, layout, ecc.
In pratica:
- distilla conoscenza da vision expert leggeri in ~20 token visivi
- durante il training li usa per ricostruire segnali densi (depth, segmentation, DINO features…)
- in inference ragiona direttamente in questo spazio visuale continuo, con la possibilità opzionale di decodificare predizioni dense per interpretabilità.
Risultato: miglioramenti dal +3% al +16% su benchmark di percezione/visione multimodale (CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, HRBench).
3.2 Monet: ragionamento nel latent visual space
Se CoVT aggiunge “visual thought” esplicito, Monet fa un passo oltre: il modello ragiona direttamente nel latent visual space, producendo embedding continui come “pensieri visivi intermedi”.
Componenti principali:
- pipeline di SFT in tre fasi per allineare testo e latenti visivi con costi computazionali gestibili
- dataset dedicato Monet-SFT-125K, con catene ragionamento (CoT) su immagini reali, chart, OCR, geometria
- un nuovo metodo RL, VLPO (Visual-latent Policy Optimization), che integra esplicitamente i latenti visivi nel policy gradient.
Perché conta:
- migliora su benchmark di percezione e ragionamento visivo e generalizza bene su compiti astratti
- offre un template concreto per chi vuole sviluppare MLLM che “pensano” davvero con immagini, non solo le descrivono.
3.3 CLaRa: Retrieval e generazione uniti nello stesso spazio continuo
CLaRa (Continuous Latent Reasoning) affronta il limite classico della RAG:
- contesti lunghi
- training disgiunto fra retrieval e generazione.
La soluzione proposta:
- comprimere i documenti in vettori densi “retrievable” con un framework chiamato SCP (key-preserving data synthesis)
- fare retrieval e generazione in un unico spazio continuo condiviso
- ottimizzare retrieval+LLM in modo congiunto, invece di trattarli come due componenti staccate.
In ottica “ultime notizie AI e Deep Learning per RAG”, CLaRa mostra:
- come ridurre il peso del contesto lungo
- come ottenere embedding compressi ma ancora ricchi semanticamente
- come sfruttare RL e SFT per unire in pratica search e generazione.
3.4 Continuous Thought Machines (CTM): un’architettura per il “pensiero continuo”
Nel pezzo Continuous Thought Machines: una nuova architettura per il “pensiero continuo” racconto la proposta di CTM, che nasce dalla domanda: “E se i nostri modelli avessero davvero una dimensione interna temporale, come i cervelli biologici?”
Le idee chiave:
- introduzione di una dimensione temporale interna decoupled dai dati d’ingresso
- ogni neurone ha weight per elaborare una storia di segnali nel tempo, non solo input istantanei
- la sincronizzazione neurale diventa una rappresentazione latente diretta
- il modello può usare compute adattivo: “pensa meno” per compiti semplici, “di più” per quelli complessi.
CTM mostra buone prestazioni su compiti molto diversi (ImageNet, maze, sorting, Q&A, RL), ma soprattutto:
rappresenta un cambio di paradigma per chi studia architetture più biologicamente plausibili e vuole superare l’idea di rete puramente feed-forward.
4. Generazione multimodale: Harmony, Z-Image, TiDAR
4.1 Harmony: sincronizzare davvero audio e video
Harmony mira a chiudere il gap tra modelli chiusi stile Sora/Veo e open-source per la generazione audio-video.
Problemi che individua:
- Correspondence Drift: i latenti audio e video si evolvono in parallelo ma si “scollegano”
- Attenzione globale inefficiente, che non afferra bene i segnali temporali fini
- Bias intra-modale nelle classiche CFG, che rafforzano la condizione ma non la sincronizzazione fra modalità.
Soluzioni:
- paradigma di training Cross-Task Synergy, sfruttando audio→video e video→audio come supervisione forte
- modulo di Global-Local Decoupled Interaction per allineare in modo efficiente stile e tempo
- SyncCFG, una variante di CFG che estrae e amplifica esplicitamente il segnale di sincronizzazione.
Risultato: stato dell’arte open su qualità e, soprattutto, allineamento audio-video.
4.2 Z-Image: generazione di immagini con Single-Stream Diffusion Transformer
In Z-Image: generazione efficiente di immagini con Single-Stream Diffusion Transformer esploro la nuova famiglia di modelli di Alibaba: 6B parametri, ma prestazioni da top-tier grazie a una architettura single-stream DiT.([tongyi-mai.github.io][14])
Punti chiave:
- Single-Stream Diffusion Transformer: testo, token semantici visivi e latenti VAE delle immagini vengono trattati come un’unica sequenza
- questo migliora efficienza parametrica e riduce la complessità rispetto a dual-stream
- varianti come Z-Image-Turbo raggiungono inferenza sub-secondo su GPU tipo H800 con soli 8 passi di diffusione
- supporto a rendering testuale bilingue (EN/ZH) robusto e alta qualità fotorealistica.
Per chi cerca modello open per:
- generazione di immagini ad alta qualità con vincoli di latency
- integrazione in pipeline produttive su GPU non enormi
→ Z-Image è uno dei candidati più forti in questo momento.
4.3 TiDAR: Think in Diffusion, Talk in Autoregression
TiDAR risponde a una domanda molto pratica: “Possiamo avere la qualità degli autoregressivi con la parallelizzazione delle diffusion LM?”
La sua ricetta:
- usa la diffusione per la fase di drafting (Think in Diffusion), generando una bozza di sequenza in parallelo
- conclude con sampling autoregressivo (Talk in Autoregression) per mantenere la qualità tipica dei modelli AR
- il tutto in un solo forward pass, usando structured attention masks e supporto KV-cache esatto.
Risultato:
- 4.7-5.9x token/sec rispetto a AR puri,
- qualità comparabile agli AR su benchmark di generazione e likelihood,
- throughput superiore rispetto a speculative decoding.
Se cerchi ultime novità AI per generazione di testo veloce, TiDAR è il riferimento più interessante di questa settimana.
5. I grandi modelli generalisti: Qwen3-VL, Gemini 3 Pro, Claude Opus 4.5
5.1 Qwen3-VL: multimodale con contesto fino a 256K token
In Qwen3-VL: guida completa analizzo il nuovo technical report del modello multimodale di Alibaba.
Caratteristiche principali:
- supporto nativo a contesti fino a 256K token, con input interleaved (testo, immagini, video)
- famiglia di modelli densi (2B/4B/8B/32B) e MoE (30B-A3B/235B-A22B) per diversi trade-off latency/qualità
testo-only molto forte (a pari livello o sopra backbone solo-testuali)
- comprensione long-context affidabile, anche su documenti e video lunghi
- ragionamento multimodale avanzato, con risultati top su MMMU, MathVista, MathVision.
Upgrade architetturali notevoli:
- interleaved-MRoPE migliorato per modellare spazio e tempo in immagini/video
- integrazione DeepStack per usare meglio feature multi-livello del ViT
- time alignment testuale per i video, evoluzione di T-RoPE.
5.2 Gemini 3 Pro: best practices di prompting
Nel pezzo Guida completa ai prompt per Gemini 3 Pro raccolgo e sistematizzo le migliori pratiche emerse per usare il nuovo modello di Google.
Le linee guida principali riguardano:
- istruzioni chiare e strutturate (ruolo, task, vincoli, formato output)
- uso della “dynamic thinking” di Gemini 3 per bilanciare latenza e qualità del ragionamento
5.3 Claude Opus 4.5: il nuovo riferimento per coding e agenti
In Claude Opus 4.5 Anthropic: nuovo modello AI per il futuro della programmazione spiego perché questo modello è particolarmente importante per chi sviluppa software e agenti.([Anthropic][17])
Secondo Anthropic: è “il miglior modello al mondo per coding, agent e computer use”
Punti pratici per aziende/dev:
- costi/efficienza: a parità di qualità coding può usare molti meno token rispetto ad altre varianti della famiglia
- forte integrazione con ambienti tipo Excel, Chrome, tool aziendali
- nelle comparazioni pubbliche supera spesso Gemini 3 Pro in compiti di sviluppo e manutenzione di progetti grandi.
6. Lato lavoro: trovare il profilo Machine Learning Engineer migliore
Nell’articolo “Machine Learning Engineer: la guida definitiva per trovare il profilo giusto nel 2025” puoi trovare delle linee guida e consigli pratici basati sulla mia esperienza in campo hiring mle in azienda.
7. FAQ – Domande frequenti sulle novità AI della 4ª settimana di novembre
7.1 Qual è la novità più importante per chi sviluppa agenti AI?
Se guardiamo solo agli agenti:
- Budget-Aware Tool-Use ti insegna come scalare gli agenti su web/tool senza esplodere i costi, introducendo consapevolezza del budget.
- DR Tulu ti mostra come addestrare agenti di deep research con RL su rubriche evolutive, invece che su reward banali.
- Fara-7B porta gli agenti sul tuo PC, con un modello piccolo ma ottimizzato per interagire col desktop.
Se devi sceglierne uno per iniziare:
→ Budget-Aware Tool-Use per chi costruisce agenti su API/tool;
→ Fara-7B se vuoi fare esperimenti di computer use locale.
7.2 Quali sono le ultime scoperte IA novembre 2025 su ragionamento multimodale?
Qui il trio più interessante è:
- Chain-of-Visual-Thought (CoVT): aggiunge catene di pensiero visive con token continui.
- Monet: fa ragionare il modello direttamente nel latent visual space, con supervised distillation + VLPO.
- OpenMMReasoner: fornisce una ricetta completa (SFT+RL) per addestrare modelli di ragionamento multimodale open.
A questi puoi aggiungere Qwen3-VL come modello di base potente e CTM come nuova architettura per pensiero continuo.
7.3 Se voglio aggiornare oggi la mia pipeline di generazione immagini, da dove parto?
- Se ti interessa qualità + efficienza, guarda Z-Image: 6B parametri, single-stream DiT, varianti Turbo per inferenza veloce.
- Se vuoi una pipeline unificata testo→immagine/video, segui anche i pattern di MammothModa2 (citato nella documentazione su single-stream/AR-diffusion) e Harmony per audio-video.
In generale, la direzione è chiara:
- modelli più piccoli ma ben ottimizzati
- architetture single-stream per combinare condizioni (testo, immagine, latenti)
- few-step diffusion con distillazione aggressiva.
7.4 Quali modelli conviene provare subito in azienda?
Dipende dal caso d’uso, ma una shortlist pratica post 30 novembre 2025 è:
- Per assistenti generali e coding
- Gemini 3 Pro (soprattutto per integrazione con ecosistema Google).
- Claude Opus 4.5 ($$)
- Per multimodality
- Qwen3-VL (open)
- OpenMMReasoner se ti serve un framework di training open da cui partire.
- Per agenti “operativi”
- Fara-7B per il computer use locale
- DR Tulu come riferimento per deep research.
7.6 Qual è la migliore risorsa se voglio un riassunto settimanale delle novità AI in italiano?
Ogni settimana su mauroscia.it pubblico una rassegna come questa, con:
- selezione ragionata dei paper più importanti
- collegamenti alle guide lunghe (in italiano)
- un focus chiaro su impatti pratici per dev, aziende e recruiter.
8. Come proseguire: tutti gli approfondimenti di questa settimana su mauroscia.it
Per chi vuole salvare la pagina e tornare con calma, ecco un indice dei contenuti pubblicati che ho usato come sorgenti per questa rassegna:
- Budget-Aware Tool-Use Enables Effective Agent Scaling
- SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space
- ROOT: Robust Orthogonalized Optimizer for Neural Network Training
- Soft Adaptive Policy Optimization
- Chain-of-Visual-Thought (CoVT)
- Monet: Reasoning in Latent Visual Space
- CLaRa: Continuous Latent Reasoning per RAG
- Harmony: generazione audio-video sincronizzata
- Qwen3-VL Technical Report – Guida completa
- TiDAR: Think in Diffusion, Talk in Autoregression
- Z-Image: generazione efficiente di immagini AI
- Continuous Thought Machines (CTM)
- DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
- Fara-7B: l’agente AI che usa il tuo PC
- Guida completa ai prompt per Gemini 3 Pro
- Claude Opus 4.5 Anthropic e il futuro della programmazione
- OpenMMReasoner: ricetta open per il ragionamento multimodale
- Machine Learning Engineer: la guida definitiva per trovare il profilo giusto nel 2025
