Novità AI 1ª settimana di dicembre 2025 (1-7 dicembre)

La prima settimana di dicembre 2025 è stata una di quelle in cui, se ti occupi di IA, Deep Learning e LLM, è facile perdersi qualcosa di importante. Tra nuovi modelli open weight, avanzamenti nella generazione video infinita, progressi sui Vision-Language Model multilingue, nuove idee per tokenizer più efficienti e studi di grande impatto su LLM in italiano (vedi CALAMITA con i suoi benchmark nativi in italiano), il flusso di novità è stato decisamente intenso.

Come ogni weekend su mauroscIA, in questo articolo raccolgo e collego le novità AI dell’ultima settimana, dal 1 al 7 dicembre 2025, usando come base le guide dettagliate che trovi già pubblicate sul sito. L’obiettivo è doppio: darti una panoramica ragionata di ciò che è successo e offrirti tanti link di approfondimento, in modo che tu possa passare rapidamente da una vista strategica a una lettura tecnica quando qualcosa ti interessa davvero.

In particolare, in questi sette giorni abbiamo parlato di:

una tecnica training-free per spingere i modelli video verso clip virtualmente infinite, con control in tempo reale e scene multi-cut, grazie al paper su Infinity-RoPE;
un caso di studio concreto su LLM multilingue e cartelle cliniche italiane, che rimette con i piedi per terra l’entusiasmo sul “multilinguismo” dei modelli;
il lancio e l’analisi di Mistral 3, DeepSeek-V3.2 e LFM2, tre famiglie di foundation model che coprono il continuum cloud-edge;
nuovi Vision-Language Model e Unified Multimodal Models come Jina-VLM e TUNA, affiancati da lavori più analitici come The Collapse of Patches e AIA – Attention Interaction Alignment;
un tokenizer alternativo, Length-MAX, che ridisegna il modo in cui pensiamo alla tokenizzazione per LLM;
due contributi fondamentali per chi lavora con l’italiano: il benchmark CALAMITA e un’analisi sull’uso di LLM open-source in sanità italiana, entrambi fondamentali se ti occupi di NLP nel nostro Paese.

In questo riepilogo andremo oltre la semplice lista di link, ma proverò a rispondere alle tipiche domande che potresti avere:

“Quali sono le ultime notizie AI e Deep Learning davvero rilevanti di inizio dicembre 2025?”
“Se sto sviluppando un prodotto, ha più senso guardare a Mistral 3, DeepSeek-V3.2 o LFM2?”
“Cosa significa, in pratica, parlare di novità AI sull’italiano e di LLM ‘davvero’ multilingue?”
“Come si collegano tra loro modelli per video infiniti, unified multimodal model e nuovi tokenizer?”

Nei paragrafi che seguono trovi una panoramica strutturata per temi, con link diretti agli approfondimenti su mauroscia.it.

Indice

Panoramica: perché le novità AI di questa settimana contano davvero
Nuovi foundation model open weight: Mistral 3, DeepSeek-V3.2 e LFM2
Self-Adapting Language Models: quando il modello continua a imparare
- SEAL: LLM che generano i propri dati di training
Efficienza di token e contesti lunghi: Length-MAX Tokenizer e Infinity-RoPE
- Length-MAX Tokenizer: ridurre i token senza perdere qualità
- Infinity-RoPE: generazione video infinita e controllabile, senza nuovo training
Vision, multimodalità e unified models: Jina-VLM, TUNA, Patch Collapse e AIA
LLM e lingua italiana: sanità, benchmark e valutazione seria
- LLM multilingue in sanità italiana: cosa ci dice il caso sulle cartelle cliniche
- CALAMITA: benchmark comunitario per mettere alla prova gli LLM in italiano
Come usare nella pratica le novità AI dell’ultima settimana
Domande frequenti sulle novità AI e Deep Learning di inizio dicembre 2025
Conclusioni: una settimana che spinge l’IA oltre i propri limiti
Riferimenti e link utili

Panoramica: perché le novità AI di questa settimana contano davvero

Se dovessimo riassumere le ultime scoperte IA di dicembre 2025 di questa settimana, potremmo dire che la ricerca si è mossa lungo tre assi principali:

Da un lato c’è la corsa ai foundation model open-source, con Mistral 3, DeepSeek-V3.2 e LFM2 che, ciascuno a modo suo, provano a ridurre la distanza con i modelli chiusi di fascia “frontier”, ma con filosofie diverse su grandezza, contesto, edge deployment e ragionamento.

Dall’altro lato, cresce e si raffina il mondo dei modelli multimodali: Jina-VLM propone un VLM piccolo ma sorprendentemente capace, TUNA cerca di unificare nativamente understanding e generazione, mentre lavori come The Collapse of Patches e AIA scavano in profondità su come i modelli guardano alle immagini e allineano l’attenzione tra testo e visione.

In parallelo, emergono novità sia sull’efficienza computazionale – con il Length-MAX Tokenizer che riduce la lunghezza delle sequenze senza sacrificare le prestazioni – sia sul modo in cui usiamo i modelli per compiti specifici, come la generazione video infinita con Infinity-RoPE o l’uso degli LLM in sanità italiana.

Infine, un filone che riguarda particolarmente chi lavora o studia IA in Italia: la settimana ha visto la pubblicazione o la discussione estesa di lavori come CALAMITA, un benchmark nativo per LLM in italiano, e il caso di studio sugli LLM multilingue in ambito clinico, entrambi raccolti e spiegati nelle guide su mauroscIA.

Nei prossimi paragrafi entriamo nel dettaglio dei singoli temi, con un occhio alle applicazioni pratiche.

Nuovi foundation model open weight: Mistral 3, DeepSeek-V3.2 e LFM2

Mistral 3: la nuova generazione di modelli open weight

Con Mistral 3, Mistral AI prova a fare un salto di generazione nel mondo dei modelli open weight. Nella guida completa a Mistral 3 trovi il quadro di insieme: una famiglia che unisce Mistral Large 3, un grande modello Mixture-of-Experts per il cloud, e tre varianti dense chiamate Ministral 3 da 3B, 8B e 14B parametri, tutte multimodali, multilingui e con open weights in licenza Apache 2.0.

L’idea centrale di Mistral Large 3 è usare centinaia di “esperti” interni, attivati selettivamente da un gating network, per ottenere una capacità totale enorme (ordine centinaia di miliardi di parametri) ma con un numero di parametri attivi per token nell’ordine delle decine di miliardi. In pratica, il modello “pensa come” un gigante, ma paga il costo di calcolo di un modello XL, con vantaggi enormi su contesti lunghi e compiti complessi di reasoning, coding e multimodalità.

I Ministral 3 spostano invece il fuoco su contesti più vicini alla produzione: modelli densi da 3B, 8B e 14B progettati per girare su singole GPU, workstation, robot, edge device e deployment locali. Per chi cerca un compromesso tra qualità e costo, la variante da 14B è quella che nelle prove si avvicina di più a modelli server più grandi, soprattutto nelle versioni ottimizzate per il reasoning, pur restando adatta a deployment relativamente leggeri.

Dal punto di vista delle ultime notizie AI e Deep Learning, Mistral 3 è importante non solo per i numeri, ma per il messaggio: è possibile competere seriamente con i modelli chiusi mantenendo open weights, context window molto ampie (fino a 256k token) e un ecosistema di inference aperto, integrato con stack come vLLM, TensorRT-LLM e SGLang.

Se vuoi entrare nel dettaglio di come funziona l’architettura Mixture-of-Experts, dei trade-off fra versione cloud e versioni edge e di cosa significa davvero “open weights” in produzione, la pagina dedicata a Mistral 3: novità, come funziona e guida completa va letta da cima a fondo.

DeepSeek-V3.2: reasoning, agentic AI e DeepSeek Sparse Attention

Se Mistral 3 gioca forte sul fronte Mixture-of-Experts, DeepSeek-V3.2 spinge in avanti il discorso su reasoning complesso e agentic AI in open source. Nella pagina DeepSeek-V3.2 novità: cosa cambia nel nuovo modello di reasoning e agentic AI open source trovi una panoramica delle innovazioni chiave, mentre la guida completa a DeepSeek-V3.2 entra nei dettagli tecnici.

Il modello introduce tre pilastri fondamentali:

Da una parte c’è DeepSeek Sparse Attention (DSA), un meccanismo di attention sparsa progettato per gestire contesti lunghissimi selezionando in modo intelligente quali token “contano davvero” per ciascun passaggio. Questo rompe il classico limite quadratico dell’attenzione piena e rende gestibile il reasoning su lunghi documenti, conversazioni estese e workflow complessi.

In secondo luogo, DeepSeek-V3.2 investe in modo atipico per un modello open sulla fase di Reinforcement Learning su larga scala: il budget di compute in post-training supera il dieci per cento del pre-training, una cifra che finora si vedeva quasi solo nei modelli chiusi di fascia altissima. Questo sforzo è usato per spingere il modello verso prestazioni di livello medaglia d’oro in contesti come olimpiadi di matematica e informatica, coding competitivo e benchmark complessi.

Infine, una agentic task synthesis pipeline genera ambienti, tool e prompt complessi in cui il modello deve usare veramente strumenti come web search, interpreti di codice o notebook, imparando a “pensare mentre agisce” e non solo a predire la prossima parola. Il risultato è un LLM che ambisce a essere un universal agent open source, con un inference stack rilasciato su Hugging Face e GitHub.

Se stai cercando ultime scoperte IA dicembre 2025 su modelli di reasoning open, DeepSeek-V3.2 è uno dei nomi da segnare, e le due pagine dedicate su mauroscIA ti guidano sia sulle novità generali sia sul funzionamento interno del modello.

LFM2: il Liquid Foundation Model pensato per l’on-device AI

Il terzo grande protagonista della settimana sul fronte foundation model è LFM2, la seconda generazione dei Liquid Foundation Models di Liquid AI. Nella pagina LFM2 guida completa: come funziona il Liquid Foundation Model per l’on-device AI trovi una spiegazione dettagliata di cosa significhi progettare un modello edge-first, cioè nato fin dall’inizio per girare su smartphone, laptop, sistemi embedded e NPU consumer, non solo su grandi GPU in datacenter.

A differenza dei soliti transformer “da datacenter”, LFM2 offre una famiglia di modelli densi da circa 350M, 700M, 1.2B e 2.6B parametri, tutti con context window da 32k token, affiancati da un modello Mixture-of-Experts da 8.3B parametri totali ma solo 1.5B attivi per token. Sopra questo backbone linguistico vengono poi costruite varianti vision-language, audio e retrieval-oriented, tutte con pesi open e pacchetti di deploy pronti per stack come Transformers, llama.cpp, ExecuTorch e vLLM.

Il punto chiave, per chi cerca ultime notizie AI e Deep Learning orientate all’edge, è che tutto in LFM2 è co-progettato a partire dai vincoli del device: time-to-first-token, latency p50/p95, RAM su smartphone e CPU laptop. Nei benchmark riportati, ad esempio, la variante da 2.6B raggiunge punteggi competitivi su MMLU, GSM8K e IFEval restando nella classe degli “small model”, mentre la variante MoE 8B-A1B spinge ancora più in alto le prestazioni su matematica e instruction following senza sforare i budget edge.

Se stai sviluppando un assistente vocale, una funzionalità di IA on-device o vuoi ridurre la dipendenza dal cloud, l’approfondimento su LFM2 è una lettura obbligata.

Self-Adapting Language Models: quando il modello continua a imparare

SEAL: LLM che generano i propri dati di training

Un’altra novità importante di questa settimana riguarda non tanto una nuova architettura, quanto un nuovo modo di far evolvere i modelli nel tempo. Il paper “Self-Adapting Language Models”, raccontato nella pagina Self-Adapting Language Models (SEAL): novità, come funziona e guida completa, introduce il framework SEAL, che si pone una domanda molto pratica: è possibile avere LLM che non restano congelati dopo il pre-training, ma che generano da soli i propri dati aggiuntivi e decidono come aggiornarsi in base ai compiti che incontrano?

Nello schema tradizionale un LLM viene pre-addestrato una volta su un immenso corpus, poi magari raffinato con un po’ di supervised fine-tuning; da lì in poi, se vogliamo che impari qualcosa di nuovo, tocca intervenire dall’esterno con altro fine-tuning o con prompt pieni di esempi (in-context learning). SEAL ribalta il paradigma: il modello osserva i propri errori, genera dati synthetic mirati, organizza questi esempi in mini-task e decide come aggiornare i pesi per colmare le lacune.

Questo approccio apre scenari interessanti per chi costruisce sistemi che devono adattarsi nel tempo a nuovi domini, senza rifare continuamente il training da zero. Per esempio, puoi immaginare un LLM specializzato su documentazione aziendale che, invece di aspettare la prossima grande sessione di fine-tuning, si auto-allena periodicamente su domande che non sa ancora rispondere bene.

Nel contesto delle ultime novità AI dell’ultima settimana, SEAL si collega bene a modelli come DeepSeek-V3.2, che già scommettono forte su RL su larga scala e agentic task synthesis: è facile immaginare futuri modelli che combinano self-adapting training e ambienti interattivi sintetici, riducendo il gap tra ricerca e deployment continuo.

Efficienza di token e contesti lunghi: Length-MAX Tokenizer e Infinity-RoPE

Length-MAX Tokenizer: ridurre i token senza perdere qualità

Parlare di ultime scoperte IA non significa sempre parlare solo di architetture gigantesche: a volte la novità è “solo” un miglior modo di tokenizzare il testo. Il paper “Length-MAX Tokenizer for Language Models”, analizzato in Length-MAX Tokenizer: novità, come funziona e guida completa alla nuova tokenizzazione per Language Models, propone un cambio di prospettiva su un pezzo di infrastruttura fondamentale ma spesso sottovalutato.

Le tecniche più diffuse, come BPE o SentencePiece, scelgono i token massimizzando la frequenza di certe coppie di simboli. Il risultato è un vocabolario pieno di frammenti corti, che permettono al modello di rappresentare bene le combinazioni frequenti, ma spesso a prezzo di sequenze più lunghe del necessario. Length-MAX, invece, ottimizza esplicitamente la copertura in lunghezza: non si chiede solo “quanto spesso appare questa stringa?”, ma anche “quanti caratteri riesco a coprire con un singolo token?”.

Formulando in modo rigoroso questo obiettivo, gli autori collegano il problema a un task di graph partitioning, dimostrando che la soluzione esatta è intrattabile in generale. Per questo propongono un algoritmo greedy che, passo dopo passo, sceglie i token che massimizzano l’aumento di lunghezza media coperta, mantenendo garanzie di monotonicità e un’implementazione molto curata dal punto di vista ingegneristico (shard del corpus, rolling hash alla Rabin-Karp, scoreboard locali fuse da un driver centrale).

Perché questa novità è rilevante? Perché meno token a parità di testo significa:

contesti effettivamente più lunghi a parità di context window;
costi minori di compute e memoria per training e inference;
potenziale miglioramento di qualità, se il modello impara a ragionare su unità di significato più lunghe.

Nell’articolo dedicato su mauroscIA vengono anche discussi i risultati sperimentali, inclusi training da zero di GPT-2 con tokenizer diversi, per capire fino a che punto un tokenizer più “lento” da calcolare ma più efficiente in lunghezza si traduca in vantaggi concreti.

Se ti occupi di deployment su context window ampie, di efficienza su GPU costose o di LLM su device limitati, Length-MAX Tokenizer è una delle novità AI di dicembre 2025 che meritano di essere studiate.

Infinity-RoPE: generazione video infinita e controllabile, senza nuovo training

Sul fronte dei modelli video, il paper “Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout”, raccontato nella guida Infinity-RoPE: generazione video infinita e controllabile, porta una novità concettuale elegante: spingere un modello text-to-video molto oltre l’orizzonte temporale visto in training, senza riaddestrarlo e senza cambiare architettura, semplicemente “hackerando” positional encoding e KV cache.

Il lavoro parte da un modello autoregressivo di tipo Diffusion Transformer, addestrato su clip brevi e basato su 3D-RoPE per codificare tempo e spazio, e introduce tre idee chiave:

La prima è una formulazione Block-Relativistic RoPE, che trasforma il tempo da coordinata assoluta a finestra mobile: invece di dire “questo è il frame numero 1500”, il modello vede sempre solo un blocco corrente, con posizioni relative. In questo modo non “si accorge” mai di aver superato il limite temporale per cui era stato configurato, e riesce a mantenere coerenza di soggetto, sfondo e movimento anche su video da 60, 120 o 240 secondi, pur essendo stato addestrato su clip di pochi secondi.

La seconda idea è KV Flush, un’operazione di inferenza che svuota quasi completamente la cache mantenendo solo un token globale che riassume la scena e l’ultimo frame generato. Il risultato è che, quando cambi prompt a metà video, il modello reagisce subito alla nuova istruzione senza perdere la continuità visiva del flusso. Infine, RoPE Cut permette di inserire veri e propri tagli di scena all’interno di un unico rollout, manipolando le coordinate temporali per separare segmenti diversi ma mantenere l’identità dei personaggi.

Tutto questo è training-free: si lavora solo sull’inferenza di un modello già distillato, senza nuove run di training né dataset aggiuntivi. Infinity-RoPE è quindi una delle novità AI dell’ultima settimana da segnare se lavori su:

video generativi per storytelling e pubblicità;
regia virtuale con scene multi-cut;
sistemi creativi che richiedono controllo in tempo reale e orizzonti temporali lunghi.

Per capire come questi concetti si collegano a pipeline concrete, la guida su Infinity-RoPE entra nel dettaglio di architettura, metriche su VBench e implicazioni per l’interpretabilità dell’attenzione nei modelli video.

Vision, multimodalità e unified models: Jina-VLM, TUNA, Patch Collapse e AIA

Jina-VLM: un Vision-Language Model compatto e multilingue

Sul versante Vision-Language Models, le ultime notizie AI di questa settimana includono Jina-VLM, presentato nella guida Novità Jina-VLM: guida completa e come funziona il piccolo Vision-Language Model multilingue da 2,4B.

Jina-VLM collega un encoder visivo SigLIP2 a un decoder linguistico Qwen3, passando per un connector con attention-pooling che riduce drasticamente il numero di token visivi. L’architettura è pensata per gestire immagini a risoluzione arbitraria tramite un sistema di tiling con sovrapposizione e una miniatura globale che fornisce contesto: ogni tile viene codificato, compresso tramite pooling e trasformato in un numero di token circa quattro volte inferiore a quello della versione naïve.

Sul piano del training, il modello segue una ricetta in due fasi, con un alignment training multimodale multilingue e una fase successiva di instruction fine-tuning su dataset come LLaVA OneVision, Cauldron, Cambrian e altri. In totale, la pipeline allena il modello su milioni di campioni multimodali e miliardi di token in oltre trenta lingue, mantenendo un equilibrio tra inglese e non-inglese.

Nei benchmark riportati, Jina-VLM si posiziona come un vero state-of-the-art nella fascia dei 2B parametri: eccelle su VQA con diagrammi, grafici, testo in scena e documenti (AI2D, ChartQA, TextVQA, DocVQA, InfoVQA…), mantiene buone proprietà di OCR e mostra un comportamento prudente sulle allucinazioni visive. Per chi cerca un VLM piccolo, efficiente e multilingue, l’analisi su mauroscIA è una guida pratica per capire se Jina-VLM può entrare nel proprio stack.

TUNA: unified multimodal model “nativo” di Meta

Se Jina-VLM gioca su efficienza e compattezza, TUNA entra in scena come proposta ambiziosa di native unified multimodal model. Nella pagina TUNA: guida completa alle novità del modello unified multimodal di Meta trovi i dettagli su come TUNA prova a usare un’unica rappresentazione visiva unificata per fare sia multimodal understanding sia multimodal generation.

La chiave concettuale è la unified visual representation: invece di avere un encoder per capire e un VAE separato per generare, TUNA costruisce la sua rappresentazione sopra i latents di un 3D causal VAE, che viene poi passato a un encoder SigLIP 2 adattato. In questo modo i latents, che comprimono l’informazione visiva in una forma continua e più compatta, vengono trattati come “immagini” su cui l’encoder estrae feature semantiche. Un piccolo connector MLP converte queste feature nei token visivi finali.

Il cuore del modello è un decoder Qwen2.5-Instruct, in taglie da circa 1.5B e 7B parametri. Testo e token visivi condividono uno spazio posizionale tramite multimodal 3D-RoPE, che tiene conto di tempo, spazio e posizione nella sequenza. Per i task di understanding, i token visivi entrano “puliti” nel decoder; per la generazione, i latents del VAE vengono “sporcati” secondo uno schedule da diffusion o flow matching, e un head dedicato impara a pilotare il processo da rumore a immagine o video coerente con il prompt.

Il risultato è un modello unico che, in principio, può descrivere immagini, rispondere a domande su video e generare contenuti visivi, senza incollare insieme modelli diversi. Per chi è interessato alle ultime scoperte IA dicembre 2025 sulla multimodalità, TUNA è un tassello importante nella direzione degli “any-to-any model” realmente unificati.

The Collapse of Patches: capire quali pezzi dell’immagine contano davvero

Non tutte le novità di questa settimana sono nuovi modelli: alcune sono nuovi modi di capire cosa succede dentro i modelli di visione. Il paper “The Collapse of Patches”, analizzato nella guida The Collapse of Patches: guida completa a patch collapse, CoMAE, CMAR e CViT, propone un’analogia interessante: osservare una porzione di immagine può far “collassare” l’incertezza sul resto, un po’ come nella meccanica quantistica l’osservazione fa collassare lo stato di un sistema.

L’idea è che non tutte le patch sono uguali: alcune zone di un’immagine sono molto più informative di altre per ridurre l’incertezza su ciò che non vediamo ancora. Se stai generando o classificando, ha più senso partire da regioni che “spiegano” il resto – il muso di un cane, il logo su un oggetto, il volto di una persona – piuttosto che da sfondi uniformi. Il contributo del lavoro è imparare un ordine ottimale in cui rivelare o usare le patch e dimostrare sperimentalmente che rispettare questo ordine migliora sia la generazione sia la classificazione.

Per chi progetta pipeline generative o sistemi di attivazione progressiva (per esempio modelli che generano immagini in step successivi o classificatori “a budget”), questo tipo di analisi è prezioso per capire dove mettere l’attenzione per primo e come ottimizzare la sequenza di calcolo.

AIA e Architecture Decoupling: allineare l’attenzione nei Unified Multimodal Models

Sempre sul fronte della visione, ma con un focus più analitico, il paper discusso in Architecture Decoupling e AIA: guida completa a come funziona la Attention Interaction Alignment nei Unified Multimodal Model parte da una domanda molto pratica: per avere modelli multimodali che funzionano bene sia in understanding sia in generazione servono architetture sempre più complesse, o si può ottenere molto semplicemente cambiando come li alleniamo?

Gli autori analizzano la cross-modal attention interaction intensity, cioè quanto ciascun layer presta attenzione alla modalità opposta (testo verso immagine e viceversa), e scoprono che esistono vere e proprie “firme” nei pattern di attenzione dei modelli, con forti correlazioni negative tra i task di understanding e quelli di generazione. A partire da queste curve di riferimento, introducono la AIA loss, una loss che non guarda solo alle predizioni di token (NTP), ma guida esplicitamente i layer verso pattern di attenzione simili a quelli di forti modelli task-specific, come Qwen3-VL per l’understanding e HunyuanImage per la generazione.

Il risultato pratico è che, applicando AIA in fasi di supervised fine-tuning o post-training, si possono migliorare le prestazioni di modelli unificati come Emu3 e Janus-Pro senza cambiare l’architettura, semplicemente allineando meglio il modo in cui testo e immagine si parlano dentro il modello. Per chi lavora su unified multimodal model, l’articolo su mauroscIA offre una guida chiara per capire quando ha senso parlare di architecture decoupling e quando, invece, conviene lavorare sulle loss e sui pattern di attenzione.

LLM e lingua italiana: sanità, benchmark e valutazione seria

LLM multilingue in sanità italiana: cosa ci dice il caso sulle cartelle cliniche

Una parte fondamentale delle novità AI dell’ultima settimana su mauroscIA riguarda non solo i modelli, ma il modo in cui li usiamo in contesti delicati. Il paper “Are LLMs Truly Multilingual? Exploring Zero-Shot Multilingual Capability of LLMs for Information Retrieval: An Italian Healthcare Use Case”, discusso nella pagina LLM per information retrieval in sanità italiana: guida al paper, affronta un caso molto concreto: posso usare LLM multilingue open source, in zero-shot, per estrarre comorbidità da cartelle cliniche italiane, in modo affidabile e sicuro?

Gli autori lavorano su EHR di un grande ospedale italiano e si concentrano sull’anamnesi di pazienti cardiologici, cercando di individuare automaticamente la presenza o l’assenza di comorbidità cruciali come fibrillazione atriale, insufficienza renale, BPCO, diabete mellito e ipertensione. L’esperimento è condotto con vincoli molto realistici: solo modelli open-source eseguibili on-premise, nessun fine-tuning, un prompt semplice in zero-shot, come farebbe un medico che scrive una domanda naturale a un sistema.

Per costruire un confronto serio, il lavoro definisce una baseline rule-based molto curata, basata su regular expression progettate con i clinici, e crea un piccolo gold standard annotato a mano da medici per valutare le performance reali. Su questo setup, vari LLM multilingue open-source – tra cui modelli OpenLLaMA, Mistral, Mixtral e Qwen – vengono messi alla prova.

Il messaggio finale è sobrio ma importante: in questo scenario specifico, i LLM multilingue open-source usati in zero-shot non raggiungono l’affidabilità della pipeline rule-based ben progettata, soprattutto quando si guardano metriche come precision, recall e F1 per classe. In alcuni casi i modelli tendono a classificare quasi tutto come positivo o negativo, sfruttando lo sbilanciamento del dataset, o mostrano comportamenti sistematici poco rassicuranti.

Alla domanda del titolo, “Are LLMs truly multilingual?”, la risposta è sfumata: questi modelli “parlano” italiano e possono essere utili come strumenti di supporto, ma non sono ancora pronti per sostituire soluzioni tradizionali in compiti clinici di estrazione strutturata ad alto rischio, almeno non senza adattamento specifico e valutazione approfondita. Se lavori in healthcare AI o stai valutando LLM in contesti normati, la guida su mauroscIA è una lettura indispensabile.

CALAMITA: benchmark comunitario per mettere alla prova gli LLM in italiano

Accanto al caso di studio ospedaliero, un’altra grande novità di questa settimana riguarda la valutazione degli LLM in italiano in senso ampio. Il paper “Challenging the Abilities of Large Language Models in Italian: a Community Initiative”, raccontato nella pagina CALAMITA: Benchmark e valutazione LLM in italiano, presenta CALAMITA, un benchmark nativo e ricco, progettato da una vasta comunità di ricercatori e ricercatrici che hanno deciso di prendere sul serio la nostra lingua.

L’idea di fondo è andare oltre i semplici benchmark tradotti dall’inglese: tradurre test pensati per un’altra lingua spesso non basta a catturare le sfide specifiche dell’italiano, dalle sfumature morfosintattiche alle peculiarità del lessico e del discorso. CALAMITA costruisce quindi un ecosistema di task che coprono comprensione, ragionamento, dialogo, conoscenza generale e settoriale, con un forte coinvolgimento di 31 istituzioni tra mondo accademico, centri di ricerca e industria.

Per chi si chiede quali siano oggi le ultime notizie AI e Deep Learning rilevanti per lo sviluppo di LLM in italiano, CALAMITA è di fatto un punto di riferimento: offre una base comune su cui confrontare modelli diversi, valutare progressi nel tempo e misurare concretamente l’impatto di tecniche come RL, fine-tuning specifico per l’italiano o training multilingue.

Combinando il benchmark CALAMITA con risultati come quelli del caso ospedaliero sulle EHR, si delinea un quadro chiaro: l’italiano sta finalmente ottenendo l’attenzione che merita, ma servono ancora lavoro e attenzione per portare gli LLM a un livello di affidabilità comparabile all’inglese in contesti critici.

Come usare nella pratica le novità AI dell’ultima settimana

Arrivati a questo punto, potresti chiederti come tradurre queste novità AI dell’ultima settimana in decisioni concrete per i tuoi progetti.

Se stai costruendo un prodotto o un prototipo basato su LLM, la triade Mistral 3 – DeepSeek-V3.2 – LFM2 offre una varietà di opzioni: puoi guardare a Mistral 3 per soluzioni cloud open weight con Mixture-of-Experts e context window ampie, a DeepSeek-V3.2 se il tuo focus è il reasoning profondo e l’uso di tool, e a LFM2 se hai vincoli stringenti di on-device AI. Le guide dedicate su mauroscia.it ti aiutano a capire quale combinazione ha più senso per il tuo caso d’uso.

Se il tuo prodotto vede immagini o documenti, modelli come Jina-VLM e TUNA rappresentano due strade complementari: il primo come VLM compatto ed efficiente, il secondo come modello unificato per understanding e generazione. Lavori come The Collapse of Patches e AIA sono meno “plug-and-play”, ma offrono insight preziosi per chi vuole progettare o selezionare modelli con attenzione multimodale ben calibrata.

Sul lato dell’efficienza, Length-MAX Tokenizer e Infinity-RoPE mostrano quanto sia importante lavorare non solo sulle architetture, ma anche sui meccanismi di rappresentazione (token di testo) e sui trucchetti di inferenza (positional encoding e KV cache) per ottenere miglioramenti enormi senza costi aggiuntivi di training.

Infine, se ti occupi di NLP in italiano, combinare le evidenze di CALAMITA con il caso clinico sulle EHR ti ricorda che valutare seriamente i modelli è imprescindibile, soprattutto quando si parla di salute e decisioni ad alto impatto: i LLM sono strumenti potenti, ma vanno usati con prudenza, misurando bene limiti e punti di forza.

Domande frequenti sulle novità AI e Deep Learning di inizio dicembre 2025

Quale modello open source ha più senso provare oggi per il mio progetto?

La risposta dipende da vari fattori: budget di calcolo, sensibilità dei dati, necessità di reasoning e vincoli di latenza. Se puoi permetterti un’infrastruttura cloud e ti interessa un modello general-purpose con ottimo rapporto qualità-prezzo, Mistral 3 è un candidato naturale, soprattutto nelle versioni reasoning e multimodali, grazie alla combinazione di Mixture-of-Experts e open weights. Se il tuo problema richiede ragionamento estremo, tool-use e contesti lunghi (per esempio analisi di codice complesso o problemi di matematica avanzata), DeepSeek-V3.2 è pensato proprio per colmare il gap con modelli frontier chiusi, con un’enfasi particolare su RL su larga scala e agentic AI.

Se invece i tuoi utenti sono su device con risorse limitate, o vuoi ridurre dipendenza dal cloud per motivi di privacy o costi, LFM2 è probabilmente la scelta più interessante, perché nasce esplicitamente come foundation model edge-first, con varianti ottimizzate per CPU, NPU e hardware consumer.

In tutti i casi, il consiglio pratico è partire dalle guide su Mistral 3, DeepSeek-V3.2 e LFM2, dove trovi breakdown di architettura, benchmark e scenari d’uso che ti aiutano a scegliere.

Come scegliere tra modelli cloud e on-device per un prodotto reale?

Una delle domande tipiche che emergono leggendo le ultime novità AI e Deep Learning riguarda il trade-off tra modelli grandi in cloud e modelli più piccoli on-device. I lavori su Mistral 3, DeepSeek-V3.2 e LFM2 mostrano che non esiste una risposta unica, ma alcuni criteri ricorrenti:

Se hai bisogno di massime prestazioni su compiti complessi di reasoning, coding sofisticato o multimodalità avanzata, una soluzione cloud con modelli di fascia alta rimane spesso la scelta più semplice. Se invece vuoi privacy by design, latenza molto bassa e resilienza alle disconnessioni, modelli edge come le varianti dense dei Ministral 3 o la famiglia LFM2 diventano molto appetibili.

In pratica, molti sistemi reali finiranno per usare approach ibridi: un modello on-device per filtrare richieste, gestire conversazioni semplici o lavorare in offline, e un modello più grande in cloud per i casi più difficili. Le guide su mauroscIA, soprattutto quelle dedicate a LFM2 e alle varianti “small” delle grandi famiglie, sono pensate proprio per aiutarti a ragionare in questi termini.

Cosa significano davvero “video infiniti” e “unified multimodal model” per chi sviluppa?

Espressioni come “video infiniti” o “unified multimodal model” possono sembrare slogan, ma lavori come Infinity-RoPE e TUNA ne danno una sostanza molto concreta.

Nel caso di Infinity-RoPE, “video infiniti” significa poter generare clip ben oltre l’orizzonte di training del modello, mantenendo coerenza visiva e controllabilità delle azioni, grazie a nuove formulazioni delle posizioni temporali e a una gestione intelligente della KV cache. Per chi sviluppa, questo può tradursi in tool di storytelling interattivo, ambienti virtuali persistenti o applicazioni di simulazione in cui il video non è più un semplice clip statico, ma una storia che continua nel tempo.

Nel caso di TUNA, parlare di “unified multimodal model” significa avere un singolo modello che, con la stessa rappresentazione visiva unificata, riesce a capire e a generare immagini e video, evitando di mantenere stack separati per VLM, text-to-image e text-to-video. Per chi progettare prodotti multimodali, questo può semplificare l’infrastruttura, ridurre la duplicazione di copie di dati e rendere più coerente il comportamento del sistema quando passa dal capire al generare.

Se queste visioni sono rilevanti per il tuo lavoro, vale la pena leggere la guida su Infinity-RoPE e quella su TUNA per capire i dettagli tecnici dietro queste etichette.

Gli LLM sono già pronti per applicazioni cliniche in italiano?

La risposta breve, alla luce delle novità AI dell’ultima settimana discusse su mauroscIA, è: non ancora, non da soli, non in zero-shot.

Il caso di studio sugli LLM usati per estrarre comorbidità da cartelle cliniche cardiologiche italiane mostra che, in uno scenario realistico di ospedale, con vincoli di privacy e senza fine-tuning, i modelli multilingue open-source non raggiungono l’affidabilità di una pipeline rule-based ben progettata. Il benchmark CALAMITA, d’altra parte, evidenzia quanto il panorama italiano sia ancora in costruzione e quanta distanza ci sia ancora da colmare rispetto all’inglese in termini di dataset, metriche e cultura della valutazione.

Questo non significa che gli LLM non possano essere utili in sanità: possono aiutare a prototipare idee, supportare l’analisi di testo libero o affiancare clinici in compiti a basso rischio. Ma se parliamo di decisioni cliniche o di estrazione automatica di dati sensibili, la lezione della settimana è chiara: serve ancora molta prudenza, testing approfondito e, idealmente, un framework di valutazione specifico per lingua e dominio, come quelli raccontati negli articoli dedicati.

Conclusioni: una settimana che spinge l’IA oltre i propri limiti

La prima settimana di dicembre 2025, dal 1 al 7 dicembre, è stata un concentrato di novità AI che toccano praticamente ogni livello dello stack: dal tokenizer al training recipe, dalle architetture open weight per il cloud ai foundation model edge-first, dalla multimodalità unificata alla generazione video infinita, fino alle sfide molto concrete dell’uso di LLM in lingua italiana e in ambito sanitario.

Se pensiamo a come evolverà il campo nei prossimi mesi, è facile immaginare che:

modelli come Mistral 3, DeepSeek-V3.2 e LFM2 diventeranno la base su cui costruire nuove applicazioni, open e commerciali;
tecniche come Length-MAX Tokenizer e Infinity-RoPE verranno integrate in stack esistenti per rendere più efficienti e potenti modelli già in produzione;
la ricerca su unified multimodal models, patch collapse e AIA continuerà a raffinare la nostra comprensione di come i modelli vedono e ragionano sulle immagini;
benchmark come CALAMITA e casi di studio come quello sulle EHR italiane diventeranno riferimento per chi vuole costruire applicazioni responsabili in lingua italiana.

In questo articolo abbiamo collegato queste ultime notizie AI e Deep Learning in un’unica narrazione, ma ogni tema merita un approfondimento dedicato. Per questo, tutti i lavori citati sono accompagnati da guide complete su mauroscia.it – da Infinity-RoPE a Jina-VLM, da SEAL a AIA, passando per Length-MAX Tokenizer, Mistral 3, DeepSeek-V3.2, LFM2, CALAMITA e il caso LLM in sanità italiana.

Se vuoi orientarti tra le novità AI dell’ultima settimana e prepararti alle prossime, il modo migliore è continuare a usare questo tipo di panoramica come bussola, e poi tuffarti nei singoli articoli quando un tema tocca direttamente i tuoi progetti o la tua curiosità.