Stato della ricerca AI Deep Learning: 1-8 Novembre 2025

stato della ricerca deep learning

La ricerca AI Deep Learning nella prima settimana di novembre 2025 ha visto progressi interessanti in diversi domini. Tra gli ultimi paper di novembre 2025, figurano l’introduzione dell’algoritmo Forward-Forward per le reti neurali convoluzionali, che propone un’alternativa ispirata alla biologia alla backpropagation; il paradigma di Nested Learning di Google, che ridefinisce l’apprendimento per l’intelligenza artificiale continua; e modelli di diffusione informati dalla fisica che estendono le capacità di previsione climatica mantenendo solidi fondamenti teorici.

Altri sviluppi degni di nota includono l’ottimizzazione architetturale tramite principi termodinamici, programmi di campionamento migliorati per modelli di diffusione mascherata (masked diffusion), e progressi nei sistemi multimodali e nelle GNN. La ricerca evidenzia inoltre i miglioramenti esponenziali degli ultimi 3 anni nell’efficienza degli LLM tramite la definizione di una nuova “densing law”, insieme a risultati di frontiera nella progettazione di anticorpi con AI e in nuovi metodi di neural architecture search.

Indice

Articoli AI di Apprendimento ispirato alla biologia

Addestrare CNN con l’algoritmo Forward-Forward

L’algoritmo Forward-Forward (FF) rappresenta un cambio di paradigma nell’addestramento delle reti neurali, offrendo un’alternativa ispirata alla biologia al metodo dominante del backpropagation. Pubblicata su Nature, questa ricerca estende l’algoritmo FF di Geoffrey Hinton (2022) alle reti neurali convoluzionali (CNN), colmando un divario importante poiché la proposta originale si applicava solo alle architetture fully connected. Lo studio introduce due strategie di etichettatura spaziale estese – pattern di Fourier e trasformazioni morfologiche – che consentono ai layer convoluzionali di accedere all’informazione di etichetta in tutte le posizioni spaziali, risolvendo una sfida cruciale nell’applicazione dell’FF ai compiti di elaborazione spaziale.
Link al paper

I ricercatori mostrano che le CNN addestrate con FF possono essere ottimizzate a profondità maggiori, mettendo in discussione l’idea che il backpropagation sia necessario per ottenere buone prestazioni nelle CNN. Su CIFAR-10, le etichette basate su morfologia evitano scorciatoie e scalano efficacemente alle 100 classi di CIFAR-100. In modo importante, le Class Activation Maps (CAM) rivelano che le reti addestrate con FF apprendono feature significative e complementari tra i layer, suggerendo che l’algoritmo cattura rappresentazioni gerarchiche autentiche. Questo lavoro è particolarmente rilevante per il computing neuromorfico e per le architetture di apprendimento ispirate alla biologia, dove regole locali e efficienza energetica sono priorità chiave.

Deep Learning a basso consumo senza backpropagation

A complemento della ricerca su Forward-Forward, una valutazione rigorosa degli algoritmi “forward-only” dimostra che l’algoritmo Mono-Forward (MF) supera costantemente baseline di backpropagation ottimizzate in accuratezza di classificazione. L’approccio Mono-Forward rappresenta un recente affinamento che usa matrici di proiezione locali in ciascun layer nascosto per ottenere prestazioni ed efficienza superiori rispetto a metodi forward-only precedenti come l’FF originale e il Cascaded Forward. Esperimenti convalidati su hardware mostrano che MF ottiene guadagni notevoli, +0,51 punti percentuali su Fashion-MNIST e +1,21 su CIFAR-10, riducendo al contempo i consumi energetici fino al 41% in compiti complessi.
Link al paper

La ricerca convalida l’esistenza di più fasi evolutive dell’apprendimento senza backpropagation, con MF che emerge come un progresso pratico per le architetture MLP. Ciò mette in discussione l’assunzione consolidata secondo cui il backpropagation è essenziale per le prestazioni allo stato dell’arte, aprendo nuove possibilità per l’edge computing e i contesti con risorse limitate, dove contano criticamente sia l’efficienza computazionale sia l’accuratezza.

Articoli AI di apprendimento multi-scala e continuo

Nested Learning: l’illusione delle architetture di deep learning

Google Research ha introdotto il Nested Learning, un paradigma trasformativo presentato a NeurIPS 2025 che riconcettualizza il modo in cui i modelli neurali dovrebbero essere progettati e addestrati. Invece di trattare un singolo modello come un unico processo di apprendimento, il Nested Learning lo considera come un sistema di problemi di apprendimento interconnessi e multilivello ottimizzati simultaneamente, ispirato all’elaborazione multi-scala del cervello. Questo framework affronta direttamente il “catastrophic forgetting”, una sfida fondamentale del continual learning in cui le reti faticano a mantenere la conoscenza pregressa durante l’acquisizione di nuove capacità.
Link al paper

La ricerca introduce l’architettura Hope, una variante del modello Titans che incorpora intuizioni dal Nested Learning consentendo l’aggiornamento di componenti diversi della rete a differenti frequenze e scale temporali. La validazione sperimentale in modellazione del linguaggio, ragionamento su contesti lunghi, continual learning e incorporazione della conoscenza mostra prestazioni superiori rispetto a Transformer standard, Titans e Samba. Un risultato notevole suggerisce che architetture note come i Transformer possono essere reinterpretate come layer lineari aggiornati a frequenze diverse, indicando che l’ottimizzazione multi-scala del Nested Learning potrebbe essere alla base di molte architetture di successo. Colmando il divario tra l’apprendimento limitato e incline all’oblio degli LLM attuali e le capacità di apprendimento continuo osservate nella cognizione umana, questo lavoro pone le basi per sistemi di AI più robusti e adattabili.

Articoli AI di Deep learning informato dalla fisica

I modelli di diffusione collegano deep learning e fisica nelle previsioni ENSO

Un’applicazione innovativa dei modelli di diffusione mostra come il deep learning data-driven possa integrarsi con la fisica classica per migliorare la previsione climatica. I ricercatori hanno sviluppato un modello di diffusione condizionale per la previsione dell’El Niño–Southern Oscillation (ENSO) che mantiene lunghi tempi di anticipo e quantifica esplicitamente l’incertezza, un doppio risultato che afferma i modelli di diffusione come ponte tra predizione data-driven e sistemi dinamici deterministici. Il modello mantiene una skill di previsione con correlazione > 0,5 fino a 26 mesi di anticipo, ben oltre il range operativo della maggior parte delle previsioni dinamiche e di machine learning esistenti.
Link al paper

L’analisi rivela un risultato particolarmente sorprendente: il processo di diffusione inverso codifica intrinsecamente il meccanismo classico di “ricarica-scarica”, con dinamiche operative in notevole accordo con l’equazione dell’oscillatore di van der Pol, un modello fondativo della fisica non lineare. Questa equivalenza matematica tra le dinamiche apprese dal modello di diffusione e i principi fisici noti dimostra che, se ben vincolate, le reti neurali possono scoprire e incorporare leggi fisiche reali. Il modello ottiene un errore assoluto medio (MAE) di 0,66 °C su un orizzonte di 30 mesi, competitivo con i sistemi dinamici leader ai lead ottimali; l’approccio basato su ensemble fornisce inoltre una quantificazione oggettiva dell’incertezza, cruciale per identificare la “spring predictability barrier” e abilitare allerta precoce di eventi climatici estremi.

Articoli AI di Architetture neurali e ottimizzazione

Ottimizzazione architetturale tramite principi termodinamici

Pubblicata su Nature, una ricerca dimostra che le architetture di reti neurali profonde possono essere ottimizzate redistribuendo i neuroni tra i layer nascosti secondo principi ispirati alla termodinamica e alle Restricted Boltzmann Machines. Invece di modificare il numero totale di parametri, l’approccio riloca i neuroni verso le regioni “più fredde” della rete, un concetto derivato da proprietà termodinamiche in cui le regioni a temperatura più bassa corrispondono a configurazioni più stabili. Il metodo migliora la robustezza della rete senza sacrificare l’accuratezza su diversi dataset benchmark.
Link al paper

I risultati sperimentali su MNIST, una variante modificata di MNIST e Fashion-MNIST mostrano miglioramenti di robustezza del 4,8%, 6% e 2,8% rispettivamente rispetto a una distribuzione uniforme dei neuroni. In modo cruciale, il raggio spettrale della matrice di transizione di fase funge da guida affidabile nell’esplorare configurazioni architetturali vicine, abilitando un raffinamento sistematico. Le architetture più stabili e robuste sono state trovate all’interno o ai margini della zona di equilibrio termico. Questo lavoro è particolarmente rilevante per applicazioni AI a bordo satellite, dove limitazioni di potenza e risorse sono critiche, poiché ottiene maggiore robustezza mantenendo la compattezza del modello.

Guida “population-based” per l’evoluzione nelle NAS

Un nuovo framework di Neural Architecture Search (NAS) combina algoritmi evolutivi con esplorazione guidata per accelerare la scoperta di architetture ad alte prestazioni. L’approccio Population-Based Guiding (PBG) sinergizza selezione greedy (basata sull’accuratezza del modello) ed esplorazione con mutazioni guidate (informate da embedding architetturali) per indirizzare la ricerca evolutiva verso regioni inesplorate dello spazio delle architetture. Questo bilanciamento tra esplorazione ed exploitazione supera ampiamente i metodi di evoluzione regolarizzata baseline, triplicando la velocità di scoperta su NAS-Bench-101.
Link al paper

Il framework implementa operazioni di selezione, crossover e mutazione tipiche degli algoritmi evolutivi, ma potenzia il processo di mutazione con embedding architetturali per incoraggiare l’esplorazione, mantenendo una forte exploitazione tramite la selezione guidata dall’accuratezza. Combinando strategie esplorative ed exploitative in un unico schema, PBG offre un approccio robusto ed efficiente che raggiunge prestazioni competitive su più benchmark riducendo significativamente i tempi di ricerca.

Articoli AI su Efficienza e leggi di scaling

La “Densing Law”: crescita esponenziale della densità di capacità negli LLM

Un’analisi di 51 modelli linguistici open source pubblicata su Nature Machine Intelligence rivela un’osservazione empirica profonda denominata “densing law”. Definendo la densità di capacità come la quantità di capacità prestazionale per unità di parametri del modello, i ricercatori trovano che tale metrica raddoppia circa ogni 3,5 mesi su molteplici benchmark diffusi. Questa crescita esponenziale è accelerata in modo significativo dopo il rilascio di ChatGPT, con il tasso di crescita aumentato del 50% da ~0,0048/mese nel periodo pre-ChatGPT a ~0,0073/mese in seguito.
Link al paper

L’analisi mostra che il miglioramento di efficienza deriva principalmente dalla scala e dalla qualità crescenti dei dati di addestramento più che da innovazioni architetturali, poiché la maggior parte dei modelli mantiene l’architettura Transformer “vanilla” con modifiche minori. Tuttavia, sviluppi recenti nel 2025 mostrano l’adozione di architetture efficienti come le Mixture-of-Experts. La densing law offre indicazioni cruciali per la strategia di sviluppo degli LLM: prestazioni equivalenti possono essere raggiunte nel tempo con un numero esponzialmente minore di parametri, implicando che requisiti di parametri e costi di inferenza decrescono esponenzialmente a parità di performance. Le implicazioni per un’AI sostenibile e accessibile sono profonde, poiché modelli più piccoli ed efficienti diventano competitivi con controparti più grandi.

Articoli AI su Ottimizzazione dei modelli di diffusione

Programmi di inferenza ottimali per modelli di diffusione mascherata

Ricerche recenti forniscono una caratterizzazione teorica rigorosa dei programmi di campionamento ottimali per i modelli di diffusione mascherata (MDM), che possono svelare token fuori ordine e potenzialmente in parallelo. Il lavoro offre una caratterizzazione esatta della divergenza attesa tra distribuzioni vere e campionate per qualunque distribuzione e qualunque programma di smascheramento, stabilendo un collegamento elegante con la teoria dell’approssimazione di funzioni univariate. Queste intuizioni teoriche producono nuovi limiti inferiori e superiori sulla qualità del campionamento in diversi scenari.
Link al paper

Sebbene il collegamento con l’approssimazione di funzioni fornisca in linea di principio il programma ottimale di smascheramento per qualunque distribuzione, la ricerca dimostra che competere con questo programma ottimale senza una forte conoscenza a priori rimane impossibile anche in contesti apparentemente benigni. Tuttavia, gli autori derivano nuovi limiti superiori e programmi di campionamento basati sulle proprietà informazionali della distribuzione di base, nello specifico la correlazione totale e la correlazione totale duale. In particolare, i risultati mostrano che in contesti naturali è possibile campionare in O(log n) passi senza perdita visibile di prestazioni, dove n è la lunghezza della sequenza. Ciò ha implicazioni pratiche immediate per accelerare la generazione basata su diffusione mantenendo la qualità.

Articoli AI su Visione e apprendimento multimodale

Modelli Vision–Language–Action auto-miglioranti con generazione di dati via RL residuale

Un framework per l’apprendimento autonomo in sistemi di AI incarnata combina modelli vision-language con apprendimento per rinforzo per consentire ai robot di migliorare continuamente le proprie capacità. L’approccio sfrutta l’apprendimento per rinforzo residuale, imparare la differenza tra le previsioni attuali del modello e le azioni ottimali, per generare in modo efficiente dati di addestramento di alta qualità. Questo consente al modello vision–language–action di migliorare iterativamente imparando dalla propria esperienza generata, creando un ciclo di feedback in cui politiche sempre migliori generano dati migliori per ulteriori perfezionamenti.

Il sistema integra percezione visiva, comprensione del linguaggio e controllo motorio in un unico modello che può essere continuamente migliorato senza annotazione manuale dei dati. Usando l’RL residuale, il framework concentra lo sforzo di apprendimento sulle correzioni invece che sull’apprendimento “da zero”, migliorando l’efficienza campionaria. Questa capacità di auto-miglioramento è particolarmente preziosa per robotica e sistemi autonomi, dove raccogliere dati di addestramento diversificati con annotazioni umane è costoso e richiede molto tempo.
Link al paper

Articoli AI su Progettazione biologica e AI-ispirata

Anticorpi progettati dall’AI interamente da zero

In un risultato di grande rilievo pubblicato su Nature, i ricercatori dell’Institute for Protein Design dell’Università di Washington dimostrano la capacità dell’AI di progettare anticorpi funzionali interamente per via computazionale. Basandosi sul lavoro premiato con il Nobel del laboratorio sulla progettazione proteica guidata dall’AI, questo traguardo mostra che modelli di deep learning addestrati su principi di biologia strutturale possono generare nuovi anticorpi che si legano con successo ai loro target – raggiungendo ciò che era considerato una “grande sfida” nel campo.

La portata di questo lavoro va ben oltre il risultato specifico: il mercato delle terapie anticorpali è valutato circa 200 miliardi di dollari, e la capacità di progettare rapidamente anticorpi efficaci per via computazionale potrebbe rivoluzionare tempi e costi della scoperta di farmaci. L’approccio dimostra che modelli di deep learning sufficientemente sofisticati, combinati con vincoli fisici e conoscenze biologiche, possono scoprire strutture biologiche realmente nuove mai osservate in natura. Ciò rappresenta un cambio di paradigma nello sviluppo di farmaci, passando da approcci di immunizzazione evolutiva a progettazione computazionale diretta.
Link al paper

Articoli AI di Apprendimento su grafi e relazionale

Unificare GNN e machine learning causale

Le graph neural network sono state applicate con successo a complessi problemi di apprendimento relazionale, mostrando efficacia nel catturare dipendenze topologiche e nel fornire intuizioni causali interpretabili. Applicazioni a sistemi di trasporto su rotaia mostrano che le GNN apprendono efficacemente a riconoscere nodi con alta centralità di grado (stazioni principali) e centralità di intermediazione (snodi cruciali). L’analisi delle feature tramite valori SHAP rivela che le rappresentazioni apprese dalle GNN catturano intuizioni valide e interpretabili sulla topologia sottostante della rete.

L’integrazione di GNN e machine learning causale consente l’estrazione di impatti causali non distorti all’interno di sistemi complessi, mantenendo al contempo la comprensione topologica fornita dalle rappresentazioni a grafo. Questa combinazione affronta un limite chiave di molti approcci di deep learning: la difficoltà di interpretare le rappresentazioni apprese e di estrarre intuizioni causali. Rendendo interpretabili le feature apprese dalle GNN e collegandole al ragionamento causale, questi sistemi offrono sia potere predittivo sia spiegabilità.
Link al paper

Alla prossima!

Torna in alto