Novità AI della 4ª settimana di novembre 2025 (24-30 novembre)

30 novembre 2025

La quarta settimana di novembre 2025 (24-30 novembre) è stata una di quelle in cui, se ti giri un attimo, ti sei già perso tre paper e due nuovi modelli di base. Se cerchi "novità AI dell'ultima settimana", "ultime notizie AI e Deep Learning" o "ultime scoperte IA novembre 2025", questa è la sintesi completa che cerchi.

In questo recap trovi:

nuovi agenti LLM che imparano a usare meglio tool e browser con vincoli di costo precisi (Budget-Aware Tool-Use, DR Tulu, Fara-7B)
ottimizzatori e tecniche di training per spremere di più i modelli (SSA, ROOT, SAPO)
un filone enorme sul ragionamento visivo/latente continuo (Chain-of-Visual-Thought, Monet, CLaRa, Continuous Thought Machines)
avanzamenti nella generazione multimodale (Harmony per audio+video, Z-Image per immagini efficienti, TiDAR per testo ultra-veloce)
nuovi modelli generalisti per developer e aziende (Qwen3-VL, Gemini 3 Pro, Claude Opus 4.5)
uno sguardo molto pragmatico a chi deve lavorare con tutto questo: Machine Learning Engineer e chi li assume.

Ogni sezione rimanda ai miei approfondimenti sul blog, così puoi entrare nei dettagli quando qualcosa ti interessa davvero.

Panoramica veloce: le novità AI di questa settimana in 60 secondi

L'aggiornamento chiave sugli agenti AI → Gli agenti imparano a usare tool e web in modo "budget-aware" con Budget-Aware Tool-Use (guida completa) e a fare deep research multi-step con DR Tulu (guida).
Novità fondamentali su training e ottimizzazione → SSA rende l'attenzione sparsa molto più stabile, ROOT introduce un nuovo ottimizzatore robusto, SAPO stabilizza l'RL per LLM e viene usato anche per Qwen3-VL. Approfondisco tutto qui:
Ultime scoperte su visione e ragionamento multimodale → Chain-of-Visual-Thought (CoVT), Monet e CLaRa portano il ragionamento nel latent space continuo, mentre Continuous Thought Machines cambia proprio l'architettura di rete pensando in modo "continuo" nel tempo.
Generazione: immagini, audio, video e testo → Harmony sincronizza audio e video meglio degli open-source precedenti, Z-Image offre text-to-image potente ma "solo" 6B parametri e single-stream diffusion, TiDAR unisce diffusione e autoregressione per generazione di testo più veloce.
- Harmony
- Z-Image
- TiDAR
Modelli che devi conoscere a fine novembre 2025 → Qwen3-VL per multimodale lungo contesto, Gemini 3 Pro come modello generalista di Google e Claude Opus 4.5 come nuovo riferimento per coding e agenti.
Impatto sul lavoro → chi assume (o fa) il Machine Learning Engineer deve aggiornare le checklist: RL per agenti, tool-use, multimodale, ottimizzatori custom e on-device agents sono ormai competenze quasi "core". Ne parlo in Machine Learning Engineer: la guida definitiva 2025.

Da qui in giù andiamo molto più in profondità: "Quali sono le ultime scoperte IA di novembre 2025 sul ragionamento multimodale?" o "Che modelli uso oggi per sviluppare agenti AI?".

1. Agenti AI e deep research: verso agenti "consapevoli del budget"

1.1 Budget-Aware Tool-Use: agenti che sanno quanto "stanno spendendo"

Nel paper "Budget-Aware Tool-Use Enables Effective Agent Scaling" gli autori mostrano un limite interessante: se dai a un agente LLM più budget di tool-call (API, web search, ecc.), non è detto che migliori. Se il modello non è "consapevole del budget", spreca chiamate e satura la curva costo-prestazioni.

Nella mia guida in italiano trovi tutti i dettagli: Budget-Aware Tool-Use: guida completa agli agenti LLM "consapevoli del budget"

Punti chiave:

introduzione del Budget Tracker, un plug-in leggero che tiene il modello costantemente aggiornato sul budget residuo
proposta di BATS (Budget Aware Test-time Scaling), un framework che decide se "affondare" su una traccia o cambiare strada in base alle risorse rimaste
definizione di un costo unificato (token + tool) per studiare davvero il trade-off costo-performance

Per Google AI Mode / FAQ tipiche:

Domanda: "Perché parlare di budget è importante negli agenti AI?" Risposta breve: perché senza budget awareness l'agente non ottimizza, spreca chiamate di tool e non scala bene a compiti complessi; con framework come BATS si ottiene una curva costo-performance molto più favorevole.

1.2 DR Tulu: Reinforcement Learning con rubriche che evolvono

DR Tulu spinge il concetto di deep research: non solo rispondere a domande brevi, ma condurre ricerche multi-step con risposte lunghe, citate e strutturate.

Il contributo tecnico centrale è RLER (Reinforcement Learning with Evolving Rubrics):

si costruiscono rubriche (criteri di valutazione) che descrivono cosa significa una risposta "buona"
queste rubriche co-evolvono con il modello durante il training, incorporando ciò che il modello scopre strada facendo
il risultato è DR Tulu-8B, un modello open 8B che regge il confronto con sistemi proprietari di deep research su benchmark in ambito scienza, salute e domande generali.

Per chi lavora con:

prodotti di knowledge management: dà un blueprint su come passare dalla semplice RAG ai research agent realmente multi-step
valutazione risposta lunga: mostra come sostituire reward semplici tipo "match con ground truth" con rubriche evolutive.

1.3 OpenMMReasoner: ricetta aperta per il ragionamento multimodale

Con OpenMMReasoner arriva una ricetta open e completa per addestrare modelli di ragionamento multimodale (testo+immagini).

Cosa fa di diverso:

costruisce un dataset SFT "cold-start" con ~874K esempi, validati step-by-step
segue con una fase di RL su ~74K esempi mirata a stabilizzare e affinare le abilità di ragionamento
mostra che la qualità e la diversità dei dati (sorgenti e risposte) sono determinanti per le prestazioni multimodali
migliora del ~11.6% rispetto a Qwen2.5-VL-7B su nove benchmark di ragionamento multimodale.

Per chi legge questo recap come "ultime scoperte IA novembre 2025":

OpenMMReasoner è oggi uno dei blueprint più chiari per chi vuole creare modelli multimodali open con forti capacità di ragionamento, non solo di percezione.

1.4 Fara-7B: l'agente AI che usa il tuo PC, davvero

Se parliamo di "agenti AI" nel senso letterale - modelli che cliccano, scrivono, aprono app sul tuo PC - allora Fara-7B di Microsoft è probabilmente la novità più concreta della settimana.([Microsoft][8])

In breve:

è un small language model da 7B progettato come Computer Use Agent
prende in input screenshot + contesto testuale e genera pensieri + azioni (clic, scrittura, navigazione)
è pensato per girare on-device, riducendo latenza e migliorando privacy
è competitivo con stack più grandi che combinano vari LLM per "computer use".

Nel mio articolo spiego come:

Fara-7B: l'agente AI che usa il tuo PC

Domande tipiche per Google AI Mode:

"Qual è la differenza fra Fara-7B e un normale LLM da chat?" → Fara-7B è addestrato per interpretare lo stato grafico del PC (screenshot) e produrre azioni sul sistema, non solo testo.
"Serve la cloud?" → è progettato proprio per girare localmente, sfruttando CPU/GPU del device e mantenendo i dati sensibili in locale.

2. Training e ottimizzazione: SSA, ROOT e SAPO

Se cerchi "ultime notizie AI e Deep Learning" dal punto di vista di chi addestra modelli, questa settimana è stata densissima.

2.1 SSA: Sparse Sparse Attention più stabile e più "vera" della full attention

In SSA: guida completa racconto un'idea molto interessante: la sparse attention nativa spesso introduce un paradosso - finisce per essere meno sparsa di quella full, perché durante il training i token esclusi non ricevono gradienti e non imparano a "stare zitti".

SSA risolve così:

considera insieme sparse e full attention durante il training
allinea bidirezionalmente gli output nello feature space, assicurando che la versione sparsa rimanga fedele a quella full
mantiene il flusso di gradiente verso tutti i token, anche quelli raramente selezionati
migliora prestazioni sia in modalità sparsa che full e scala bene il budget di sparsità.

Risultato pratico: → se devi servire contesti lunghi ma sei limitato da memoria/latency, SSA è un tassello importante per tenere alta la qualità.

2.2 ROOT: un nuovo ottimizzatore robusto per LLM

ROOT (Robust Orthogonalized Optimizer) affronta due problemi chiave degli ottimizzatori moderni (tipo Muon): fragilità dimensionale nell'ortogonalizzazione e sensibilità al rumore/outlier.

Caratteristiche salienti:

orthogonalization dimension-robust via iterazioni di Newton adattive
schema prossimale per smorzare outlier senza distruggere la direzione utile del gradiente
convergenza più stabile e veloce rispetto ad Adam/Muon in scenari non-convessi e rumorosi.

Per keyword come "ultime scoperte IA novembre 2025 ottimizzatori", ROOT è uno dei nomi da ricordare se ti interessa:

pre-training di LLM su dataset "sporchi"
training su hardware con precisione mista
scenari dove vuoi ridurre al minimo instabilità e divergenze.

2.3 SAPO: Soft Adaptive Policy Optimization per RL su LLM

Con SAPO, o Soft Adaptive Policy Optimization, la community fa un passo avanti sulla stabilità della RL per LLM, specialmente su modelli MoE.

Differenze chiave rispetto a GSPO/GRPO:

sostituisce la hard clipping band con un gate morbido controllato da una temperatura, che attenua ma non annulla gli update off-policy
mantiene la coerenza a livello di sequenza, ma è token-adaptive: riduce solo i contributi dei token problematici invece di cassare l'intera sequenza
offre un trust region continuo, migliorando stabilità e sample efficiency.

Viene usato, tra l'altro, per addestrare la serie Qwen3-VL - e infatti molti dei risultati di quel modello sono strettamente legati a questa scelta di policy optimization.

3. Ragionamento visivo e latente: CoVT, Monet, CLaRa, CTM

Una delle ultime scoperte IA di novembre 2025 che secondo me lascerà il segno è il passaggio dal "pensare solo con token di testo" al pensare in spazi visuali/latenti continui.

3.1 Chain-of-Visual-Thought (CoVT): catene di pensiero... visive

Nel mio articolo Chain-of-Visual-Thought: guida completa descrivo CoVT come il gemello multimodale della Chain-of-Thought: invece di usare solo step testuali, il modello genera anche token visivi continui che rappresentano profondità, segmentazioni, bordi, layout, ecc.

In pratica:

distilla conoscenza da vision expert leggeri in ~20 token visivi
durante il training li usa per ricostruire segnali densi (depth, segmentation, DINO features...)
in inference ragiona direttamente in questo spazio visuale continuo, con la possibilità opzionale di decodificare predizioni dense per interpretabilità.

Risultato: miglioramenti dal +3% al +16% su benchmark di percezione/visione multimodale (CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, HRBench).

3.2 Monet: ragionamento nel latent visual space

Se CoVT aggiunge "visual thought" esplicito, Monet fa un passo oltre: il modello ragiona direttamente nel latent visual space, producendo embedding continui come "pensieri visivi intermedi".

Componenti principali:

pipeline di SFT in tre fasi per allineare testo e latenti visivi con costi computazionali gestibili
dataset dedicato Monet-SFT-125K, con catene ragionamento (CoT) su immagini reali, chart, OCR, geometria
un nuovo metodo RL, VLPO (Visual-latent Policy Optimization), che integra esplicitamente i latenti visivi nel policy gradient.

Perché conta:

migliora su benchmark di percezione e ragionamento visivo e generalizza bene su compiti astratti
offre un template concreto per chi vuole sviluppare MLLM che "pensano" davvero con immagini, non solo le descrivono.

3.3 CLaRa: Retrieval e generazione uniti nello stesso spazio continuo

CLaRa (Continuous Latent Reasoning) affronta il limite classico della RAG:

contesti lunghi
training disgiunto fra retrieval e generazione.

La soluzione proposta:

comprimere i documenti in vettori densi "retrievable" con un framework chiamato SCP (key-preserving data synthesis)
fare retrieval e generazione in un unico spazio continuo condiviso
ottimizzare retrieval+LLM in modo congiunto, invece di trattarli come due componenti staccate.

In ottica "ultime notizie AI e Deep Learning per RAG", CLaRa mostra:

come ridurre il peso del contesto lungo
come ottenere embedding compressi ma ancora ricchi semanticamente
come sfruttare RL e SFT per unire in pratica search e generazione.

3.4 Continuous Thought Machines (CTM): un'architettura per il "pensiero continuo"

Nel pezzo Continuous Thought Machines: una nuova architettura per il "pensiero continuo" racconto la proposta di CTM, che nasce dalla domanda: "E se i nostri modelli avessero davvero una dimensione interna temporale, come i cervelli biologici?"

Le idee chiave:

introduzione di una dimensione temporale interna decoupled dai dati d'ingresso
ogni neurone ha weight per elaborare una storia di segnali nel tempo, non solo input istantanei
la sincronizzazione neurale diventa una rappresentazione latente diretta
il modello può usare compute adattivo: "pensa meno" per compiti semplici, "di più" per quelli complessi.

CTM mostra buone prestazioni su compiti molto diversi (ImageNet, maze, sorting, Q&A, RL), ma soprattutto:

rappresenta un cambio di paradigma per chi studia architetture più biologicamente plausibili e vuole superare l'idea di rete puramente feed-forward.

4. Generazione multimodale: Harmony, Z-Image, TiDAR

4.1 Harmony: sincronizzare davvero audio e video

Harmony mira a chiudere il gap tra modelli chiusi stile Sora/Veo e open-source per la generazione audio-video.

Problemi che individua:

Correspondence Drift: i latenti audio e video si evolvono in parallelo ma si "scollegano"
Attenzione globale inefficiente, che non afferra bene i segnali temporali fini
Bias intra-modale nelle classiche CFG, che rafforzano la condizione ma non la sincronizzazione fra modalità.

Soluzioni:

paradigma di training Cross-Task Synergy, sfruttando audio→video e video→audio come supervisione forte
modulo di Global-Local Decoupled Interaction per allineare in modo efficiente stile e tempo
SyncCFG, una variante di CFG che estrae e amplifica esplicitamente il segnale di sincronizzazione.

Risultato: stato dell'arte open su qualità e, soprattutto, allineamento audio-video.

4.2 Z-Image: generazione di immagini con Single-Stream Diffusion Transformer

In Z-Image: generazione efficiente di immagini con Single-Stream Diffusion Transformer esploro la nuova famiglia di modelli di Alibaba: 6B parametri, ma prestazioni da top-tier grazie a una architettura single-stream DiT.([tongyi-mai.github.io][14])

Punti chiave:

Single-Stream Diffusion Transformer: testo, token semantici visivi e latenti VAE delle immagini vengono trattati come un'unica sequenza
questo migliora efficienza parametrica e riduce la complessità rispetto a dual-stream
varianti come Z-Image-Turbo raggiungono inferenza sub-secondo su GPU tipo H800 con soli 8 passi di diffusione
supporto a rendering testuale bilingue (EN/ZH) robusto e alta qualità fotorealistica.

Per chi cerca modello open per:

generazione di immagini ad alta qualità con vincoli di latency
integrazione in pipeline produttive su GPU non enormi → Z-Image è uno dei candidati più forti in questo momento.

4.3 TiDAR: Think in Diffusion, Talk in Autoregression

TiDAR risponde a una domanda molto pratica: "Possiamo avere la qualità degli autoregressivi con la parallelizzazione delle diffusion LM?"

La sua ricetta:

usa la diffusione per la fase di drafting (Think in Diffusion), generando una bozza di sequenza in parallelo
conclude con sampling autoregressivo (Talk in Autoregression) per mantenere la qualità tipica dei modelli AR
il tutto in un solo forward pass, usando structured attention masks e supporto KV-cache esatto.

Risultato:

4.7-5.9x token/sec rispetto a AR puri,
qualità comparabile agli AR su benchmark di generazione e likelihood,
throughput superiore rispetto a speculative decoding.

Se cerchi "ultime novità AI per generazione di testo veloce", TiDAR è il riferimento più interessante di questa settimana.

5. I grandi modelli generalisti: Qwen3-VL, Gemini 3 Pro, Claude Opus 4.5

5.1 Qwen3-VL: multimodale con contesto fino a 256K token

In Qwen3-VL: guida completa analizzo il nuovo technical report del modello multimodale di Alibaba.

Caratteristiche principali:

supporto nativo a contesti fino a 256K token, con input interleaved (testo, immagini, video)
famiglia di modelli densi (2B/4B/8B/32B) e MoE (30B-A3B/235B-A22B) per diversi trade-off latency/qualità
tre pilastri dichiarati:
- testo-only molto forte (a pari livello o sopra backbone solo-testuali)
- comprensione long-context affidabile, anche su documenti e video lunghi
- ragionamento multimodale avanzato, con risultati top su MMMU, MathVista, MathVision.

Upgrade architetturali notevoli:

interleaved-MRoPE migliorato per modellare spazio e tempo in immagini/video
integrazione DeepStack per usare meglio feature multi-livello del ViT
time alignment testuale per i video, evoluzione di T-RoPE.

5.2 Gemini 3 Pro: best practices di prompting

Nel pezzo Guida completa ai prompt per Gemini 3 Pro raccolgo e sistematizzo le migliori pratiche emerse per usare il nuovo modello di Google, pensato anche per la AI Mode in Search.([Google AI for Developers][16])

Le linee guida principali riguardano:

istruzioni chiare e strutturate (ruolo, task, vincoli, formato output)
uso della "dynamic thinking" di Gemini 3 per bilanciare latenza e qualità del ragionamento
template di prompting per:
- agentic workflows (tool, API, browser)
- generazione multimodale (anche via Nano Banana Pro per immagini)
- coding e refactoring grandi codebase.

Domanda tipica per Google AI Mode:

"Come scrivere prompt efficaci per Gemini 3 Pro nel 2025?" → Risposta: usare istruzioni explicit, esempi pochi ma ben scelti, definire chiaramente tool disponibili e controllare il livello di "thinking" (basso/medio/alto) in base al task.

5.3 Claude Opus 4.5: il nuovo riferimento per coding e agenti

In Claude Opus 4.5 Anthropic: nuovo modello AI per il futuro della programmazione spiego perché questo modello è particolarmente importante per chi sviluppa software e agenti.([Anthropic][17])

Secondo Anthropic:

è "il miglior modello al mondo per coding, agent e computer use"
migliora notevolmente:
- generazione e debugging di codice
- automazione con fogli di calcolo, slide, browser
- gestione di progetti lunghi grazie a memoria e contesto estesi (anche con funzionalità tipo Infinite Chats).

Punti pratici per aziende/dev:

costi/efficienza: a parità di qualità coding può usare molti meno token rispetto ad altre varianti della famiglia
forte integrazione con ambienti tipo Excel, Chrome, tool aziendali
nelle comparazioni pubbliche supera spesso Gemini 3 Pro in compiti di sviluppo e manutenzione di progetti grandi.

6. Lato lavoro: trovare il profilo Machine Learning Engineer migliore

Nell'articolo "Machine Learning Engineer: la guida definitiva per trovare il profilo giusto nel 2025" puoi trovare delle linee guida e consigli pratici basati sulla mia esperienza in campo hiring mle in azienda.

7. FAQ - Domande frequenti sulle novità AI della 4ª settimana di novembre

Questa sezione è pensata anche per Google AI Mode: domande dirette, risposte concise ma precise che riassumono l'articolo.

7.1 Qual è la novità più importante per chi sviluppa agenti AI?

Se guardiamo solo agli agenti:

Budget-Aware Tool-Use ti insegna come scalare gli agenti su web/tool senza esplodere i costi, introducendo consapevolezza del budget.
DR Tulu ti mostra come addestrare agenti di deep research con RL su rubriche evolutive, invece che su reward banali.
Fara-7B porta gli agenti sul tuo PC, con un modello piccolo ma ottimizzato per interagire col desktop.

Se devi sceglierne uno per iniziare: → Budget-Aware Tool-Use per chi costruisce agenti su API/tool; → Fara-7B se vuoi fare esperimenti di computer use locale.

7.2 Quali sono le ultime scoperte IA novembre 2025 su ragionamento multimodale?

Qui il trio più interessante è:

Chain-of-Visual-Thought (CoVT): aggiunge catene di pensiero visive con token continui.
Monet: fa ragionare il modello direttamente nel latent visual space, con supervised distillation + VLPO.
OpenMMReasoner: fornisce una ricetta completa (SFT+RL) per addestrare modelli di ragionamento multimodale open.

A questi puoi aggiungere Qwen3-VL come modello di base potente e CTM come nuova architettura per pensiero continuo.

7.3 Se voglio aggiornare oggi la mia pipeline di generazione immagini, da dove parto?

Se ti interessa qualità + efficienza, guarda Z-Image: 6B parametri, single-stream DiT, varianti Turbo per inferenza veloce.
Se vuoi una pipeline unificata testo→immagine/video, segui anche i pattern di MammothModa2 (citato nella documentazione su single-stream/AR-diffusion) e Harmony per audio-video.

In generale, la direzione è chiara:

modelli più piccoli ma ben ottimizzati
architetture single-stream per combinare condizioni (testo, immagine, latenti)
few-step diffusion con distillazione aggressiva.

7.4 Quali modelli conviene provare subito in azienda?

Dipende dal caso d'uso, ma una shortlist pratica post 30 novembre 2025 è:

Per assistenti generali e coding
- Claude Opus 4.5 (se puoi usare modelli proprietari)
- Gemini 3 Pro (soprattutto per integrazione con ecosistema Google).
Per multimodality
- Qwen3-VL (open)
- OpenMMReasoner se ti serve un framework di training open da cui partire.
Per agenti "operativi"
- Fara-7B per il computer use locale
- DR Tulu come riferimento per deep research.

7.6 Qual è la migliore risorsa se voglio un riassunto settimanale delle novità AI in italiano?

Esattamente questo tipo di articolo 😊 Ogni settimana su mauroscia.it pubblico una rassegna come questa, con:

selezione ragionata dei paper più importanti
collegamenti alle guide lunghe (in italiano)
un focus chiaro su impatti pratici per dev, aziende e recruiter.

8. Come proseguire: tutti gli approfondimenti di questa settimana su mauroscia.it

Per chi vuole salvare la pagina e tornare con calma, ecco un indice dei contenuti pubblicati che ho usato come sorgenti per questa rassegna: