stato della ricerca deep learning
Deep Learning

Evolution Strategies at the Hyperscale

Cos’è EGGROLL e come funziona Il paper introduce EGGROLL, un nuovo algoritmo di Evolution Strategies pensato per addestrare reti neurali con miliardi di parametri senza usare backpropagation, ma mantenendo comunque efficienza e buone prestazioni. L’idea centrale è rendere pratico l’uso di Evolution Strategies su modelli enormi sfruttando una rappresentazione low-rank delle perturbazioni sui pesi, tagliando

stato della ricerca deep learning
Deep Learning

NaTex: Seamless Texture Generation as Latent Color Diffusion

Texture 3D di nuova generazione con latent diffusion nativa nello spazio 3D Un nuovo modo di pensare la generazione di texture 3D Questo articolo riassume e approfondisce il paper NaTex: Seamless Texture Generation as Latent Color Diffusion, che introduce un framework innovativo per la 3D texture generation.A differenza degli approcci tradizionali basati su immagini 2D

stato della ricerca deep learning
Deep Learning

Gradio 6: La libreria per i tuoi progetti AI

Cos’è Gradio 6 e Novità Gradio è una libreria open-source in Python che ti permette di costruire in pochi minuti una web app per un model di Machine Learning, un’API o qualsiasi funzione Python, senza dover sapere nulla di frontend o JavaScript.Con Gradio 6 questo approccio “pochi file, tanta potenza” viene spinto ancora oltre, con

stato della ricerca deep learning
Deep Learning

Olmo 3

Dal modello Olmo3 alla pipeline: perché questo paper conta Il paper presenta Olmo 3 come una famiglia di language model e thinking model completamente open nelle taglie 7B e 32B, progettata fin dall’inizio per essere studiabile e modificabile lungo tutto il ciclo di vita, non solo come pesi finali rilasciati su Hugging Face.L’idea centrale è

stato della ricerca deep learning
Deep Learning

Detect Anything via Next Point Prediction

Rex-Omni in poche parole: vedere (quasi) qualsiasi cosa Questo paper introduce Rex-Omni, un multimodal large language model da 3 miliardi di parametri capace di fare object detection e molti altri compiti di percezione solo tramite next token prediction di punti e coordinate.L’idea è superare i limiti dei precedenti MLLM per object detection (bassa recall, box

stato della ricerca deep learning
Deep Learning

Scaling Spatial Intelligence with Multimodal Foundation Models

Perché questo paper conta per la spatial intelligence Questo paper introduce la famiglia di modelli SenseNova-SI, una serie di multimodal foundation models progettati specificamente per potenziare la cosiddetta spatial intelligence, cioè la capacità di ragionare su spazio, posizioni, prospettive, movimenti e relazioni geometriche a partire da immagini, video e testo. Gli autori mostrano che, nonostante

stato della ricerca deep learning
Deep Learning

Nano Banana Pro by Google

Cos’è Nano Banana Pro e cosa sa fare Nano Banana Pro è il nuovo image model di Google DeepMind, versione evoluta di Nano Banana, pensato per generare ed editare immagini con qualità da studio partendo da semplici prompt in linguaggio naturale.È costruito sopra Gemini 3 Pro, quindi sfrutta le capacità di reasoning e la conoscenza

stato della ricerca deep learning
Deep Learning

Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model

Perché “Diffusion As Self-Distillation” è una buona notizia per i generative model Il paper propone Diffusion Self-Distillation (DSD), un framework che fonde encoder, decoder e diffusion model in un unico network end-to-end, evitando l’architettura a tre pezzi tipica dei Latent Diffusion Model standard.Gli autori mostrano che un tentativo ingenuo di addestrare tutto insieme porta a

stato della ricerca deep learning
Deep Learning

CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs

Perché “CIMemories” è un paper da ricordare CIMemories introduce un nuovo benchmark pensato per valutare se i Large Language Models con memoria persistente rispettano la privacy contestuale quando riutilizzano ciò che ricordano sugli utenti.L’idea centrale è misurare se il modello sa quando certe informazioni personali sono appropriate in un contesto e inappropriate in un altro,

stato della ricerca deep learning
Deep Learning

SAM 3: Segment Anything with Concepts

SAM 3 in poche parole: “segmentare i concetti” SAM 3 è l’ultima evoluzione della famiglia Segment Anything di Meta, un foundation model di visione che riesce a rilevare, segmentare e tracciare oggetti in immagini e video partendo da “concept prompts” come frasi brevi o esempi visivi.Rispetto ai SAM precedenti, non si limita più a segmentare

stato della ricerca deep learning
Deep Learning

ARC Is a Vision Problem!

Uno sguardo veloce a “ARC Is a Vision Problem!” Il paper “ARC Is a Vision Problem!” propone una lettura completamente visiva dell’Abstraction and Reasoning Corpus (ARC), trattando ogni task come un problema di image-to-image translation invece che come un puzzle da risolvere con linguaggio o simboli logici. Invece di usare solo large language model o

stato della ricerca deep learning
Deep Learning

Gemini 3 di Google: Guida al nuovo modello stato dell’arte

Gemini 3 Novità e Come Utilizzarlo al meglio Gemini 3 è la nuova generazione di modelli AI di Google, presentata come il modello più intelligente mai rilasciato dall’azienda, capace di unire in un unico sistema le capacità di ragionamento, multimodalità e agentic che prima erano distribuite tra diverse versioni di Gemini.È progettato per capire non

stato della ricerca deep learning
Deep Learning

Back to Basics: Let Denoising Generative Models Denoise

JiT Perché “tornare alle basi” del denoising Il paper propone una critica molto semplice ma potente: i moderni diffusion models non stanno davvero facendo denoising, perché la rete non predice l’immagine pulita ma una forma di rumore o una combinazione rumorosa dell’immagine stessa. Gli autori sostengono che, se si prende sul serio l’idea che le

stato della ricerca deep learning
Deep Learning

NVQLink: il ponte tra quantum e AI supercomputing

Oltre NVLink: perché NVQLink è speciale NVQLink è una nuova architettura di interconnessione di NVIDIA pensata per collegare direttamente quantum processors a supercomputer basati su GPU in modo veloce e prevedibile.Rispetto a collegamenti tradizionali, NVQLink è progettato per offrire comunicazione a bassa latenza e alto throughput, cioè scambi di dati molto rapidi e continui tra

stato della ricerca deep learning
Deep Learning

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Perché MMaDA-Parallel è interessante: panoramica e risultati MMaDA-Parallel affronta un problema molto attuale: i modelli di thinking-aware generation che prima “pensano” in linguaggio naturale e poi generano un’immagine possono addirittura peggiorare la qualità finale a causa di errori che si propagano dal testo all’immagine. Gli autori mostrano che, nel paradigma classico sequenziale (prima reasoning, poi

stato della ricerca deep learning
Deep Learning

Grok 4.1 di xAI: Guida al nuovo modello stato dell’arte

Grok 4.1 – Novità Grok 4.1 è il modello di linguaggio più recente sviluppato da xAI, rilasciato ufficialmente il 17 novembre 2025. Questo aggiornamento non rappresenta una semplice ottimizzazione incrementale, ma un vero salto di qualità nell’intelligenza conversazionale: il modello eccelle nel comprendere emozioni, creare contenuti e mantenere conversazioni naturali e fluide. Durante il rollout

stato della ricerca deep learning
Deep Learning

Virtual Width Networks

Larghezza Virtuale: Espandere Senza Pagare il Prezzo Il paper “Virtual Width Networks” (VWN) introduce un framework rivoluzionario che permette di ottenere i benefici di rappresentazioni più ampie nei modelli transformer senza incorrere nei costi computazionali quadratici tipici dell’aumento della dimensione nascosta. L’idea centrale è disaccoppiare la larghezza rappresentazionale dalla larghezza del backbone del modello, espandendo

stato della ricerca deep learning
Deep Learning

Instella: Fully Open Language Models with Stellar Performance

Una Stella Nascente: Cosa Rende Instella Speciale Instella rappresenta una famiglia di language model con 3 miliardi di parametri completamente aperti, sviluppati da AMD e addestrati interamente su GPU AMD Instinct MI300X. La caratteristica che rende questo lavoro particolarmente interessante è l’impegno verso la trasparenza totale: non vengono rilasciati solo i pesi del modello, ma

stato della ricerca deep learning
Deep Learning

Depth Anything 3: Recovering the Visual Space from Any Views

Uno Sguardo in Profondità a Depth Anything 3 Depth Anything 3 (DA3) rappresenta un importante passo avanti nel campo della stima della geometria visuale. Questo modello è capace di predire geometrie spazialmente coerenti partendo da un numero arbitrario di input visivi, anche senza conoscere le pose delle camere. La vera innovazione sta nella sua semplicità

Torna in alto