stato della ricerca deep learning
Deep Learning

Olmo 3

Dal modello Olmo3 alla pipeline: perché questo paper conta Il paper presenta Olmo 3 come una famiglia di language model e thinking model completamente open nelle taglie 7B e 32B, progettata fin dall’inizio per essere studiabile e modificabile lungo tutto il ciclo di vita, non solo come pesi finali rilasciati su Hugging Face.L’idea centrale è […]

stato della ricerca deep learning
Deep Learning

Detect Anything via Next Point Prediction

Rex-Omni in poche parole: vedere (quasi) qualsiasi cosa Questo paper introduce Rex-Omni, un multimodal large language model da 3 miliardi di parametri capace di fare object detection e molti altri compiti di percezione solo tramite next token prediction di punti e coordinate.L’idea è superare i limiti dei precedenti MLLM per object detection (bassa recall, box

stato della ricerca deep learning
Deep Learning

Scaling Spatial Intelligence with Multimodal Foundation Models

Perché questo paper conta per la spatial intelligence Questo paper introduce la famiglia di modelli SenseNova-SI, una serie di multimodal foundation models progettati specificamente per potenziare la cosiddetta spatial intelligence, cioè la capacità di ragionare su spazio, posizioni, prospettive, movimenti e relazioni geometriche a partire da immagini, video e testo. Gli autori mostrano che, nonostante

stato della ricerca deep learning
Deep Learning

Nano Banana Pro by Google

Cos’è Nano Banana Pro e cosa sa fare Nano Banana Pro è il nuovo image model di Google DeepMind, versione evoluta di Nano Banana, pensato per generare ed editare immagini con qualità da studio partendo da semplici prompt in linguaggio naturale.È costruito sopra Gemini 3 Pro, quindi sfrutta le capacità di reasoning e la conoscenza

stato della ricerca deep learning
Deep Learning

Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model

Perché “Diffusion As Self-Distillation” è una buona notizia per i generative model Il paper propone Diffusion Self-Distillation (DSD), un framework che fonde encoder, decoder e diffusion model in un unico network end-to-end, evitando l’architettura a tre pezzi tipica dei Latent Diffusion Model standard.Gli autori mostrano che un tentativo ingenuo di addestrare tutto insieme porta a

stato della ricerca deep learning
Deep Learning

CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs

Perché “CIMemories” è un paper da ricordare CIMemories introduce un nuovo benchmark pensato per valutare se i Large Language Models con memoria persistente rispettano la privacy contestuale quando riutilizzano ciò che ricordano sugli utenti.L’idea centrale è misurare se il modello sa quando certe informazioni personali sono appropriate in un contesto e inappropriate in un altro,

stato della ricerca deep learning
Deep Learning

SAM 3: Segment Anything with Concepts

SAM 3 in poche parole: “segmentare i concetti” SAM 3 è l’ultima evoluzione della famiglia Segment Anything di Meta, un foundation model di visione che riesce a rilevare, segmentare e tracciare oggetti in immagini e video partendo da “concept prompts” come frasi brevi o esempi visivi.Rispetto ai SAM precedenti, non si limita più a segmentare

stato della ricerca deep learning
Deep Learning

ARC Is a Vision Problem!

Uno sguardo veloce a “ARC Is a Vision Problem!” Il paper “ARC Is a Vision Problem!” propone una lettura completamente visiva dell’Abstraction and Reasoning Corpus (ARC), trattando ogni task come un problema di image-to-image translation invece che come un puzzle da risolvere con linguaggio o simboli logici. Invece di usare solo large language model o

stato della ricerca deep learning
Deep Learning

Gemini 3 di Google: Guida al nuovo modello stato dell’arte

Gemini 3 Come Usarlo al meglio Gemini 3 è la nuova generazione di modelli AI di Google, presentata come il modello più intelligente mai rilasciato dall’azienda, capace di unire in un unico sistema le capacità di ragionamento, multimodalità e agentic che prima erano distribuite tra diverse versioni di Gemini.È progettato per capire non solo il

stato della ricerca deep learning
Deep Learning

Back to Basics: Let Denoising Generative Models Denoise

JiT Perché “tornare alle basi” del denoising Il paper propone una critica molto semplice ma potente: i moderni diffusion models non stanno davvero facendo denoising, perché la rete non predice l’immagine pulita ma una forma di rumore o una combinazione rumorosa dell’immagine stessa. Gli autori sostengono che, se si prende sul serio l’idea che le

stato della ricerca deep learning
Deep Learning

NVQLink: il ponte tra quantum e AI supercomputing

Oltre NVLink: perché NVQLink è speciale NVQLink è una nuova architettura di interconnessione di NVIDIA pensata per collegare direttamente quantum processors a supercomputer basati su GPU in modo veloce e prevedibile.Rispetto a collegamenti tradizionali, NVQLink è progettato per offrire comunicazione a bassa latenza e alto throughput, cioè scambi di dati molto rapidi e continui tra

stato della ricerca deep learning
Deep Learning

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Perché MMaDA-Parallel è interessante: panoramica e risultati MMaDA-Parallel affronta un problema molto attuale: i modelli di thinking-aware generation che prima “pensano” in linguaggio naturale e poi generano un’immagine possono addirittura peggiorare la qualità finale a causa di errori che si propagano dal testo all’immagine. Gli autori mostrano che, nel paradigma classico sequenziale (prima reasoning, poi

stato della ricerca deep learning
Deep Learning

Grok 4.1 di xAI: Guida al nuovo modello stato dell’arte

Grok 4.1 – Novità Grok 4.1 è il modello di linguaggio più recente sviluppato da xAI, rilasciato ufficialmente il 17 novembre 2025. Questo aggiornamento non rappresenta una semplice ottimizzazione incrementale, ma un vero salto di qualità nell’intelligenza conversazionale: il modello eccelle nel comprendere emozioni, creare contenuti e mantenere conversazioni naturali e fluide. Durante il rollout

stato della ricerca deep learning
Deep Learning

Virtual Width Networks

Larghezza Virtuale: Espandere Senza Pagare il Prezzo Il paper “Virtual Width Networks” (VWN) introduce un framework rivoluzionario che permette di ottenere i benefici di rappresentazioni più ampie nei modelli transformer senza incorrere nei costi computazionali quadratici tipici dell’aumento della dimensione nascosta. L’idea centrale è disaccoppiare la larghezza rappresentazionale dalla larghezza del backbone del modello, espandendo

stato della ricerca deep learning
Deep Learning

Instella: Fully Open Language Models with Stellar Performance

Una Stella Nascente: Cosa Rende Instella Speciale Instella rappresenta una famiglia di language model con 3 miliardi di parametri completamente aperti, sviluppati da AMD e addestrati interamente su GPU AMD Instinct MI300X. La caratteristica che rende questo lavoro particolarmente interessante è l’impegno verso la trasparenza totale: non vengono rilasciati solo i pesi del modello, ma

stato della ricerca deep learning
Deep Learning

Depth Anything 3: Recovering the Visual Space from Any Views

Uno Sguardo in Profondità a Depth Anything 3 Depth Anything 3 (DA3) rappresenta un importante passo avanti nel campo della stima della geometria visuale. Questo modello è capace di predire geometrie spazialmente coerenti partendo da un numero arbitrario di input visivi, anche senza conoscere le pose delle camere. La vera innovazione sta nella sua semplicità

stato della ricerca deep learning
Deep Learning

Black-Box On-Policy Distillation of Large Language Models

Il Segreto della “Scatola Nera”: Di Cosa Parla il Paper Questo paper introduce Generative Adversarial Distillation (GAD), un metodo innovativo per distillare Large Language Models quando abbiamo accesso solo agli output testuali del modello teacher, senza poter guardare dentro i suoi parametri o logit interni. È un problema cruciale nel mondo reale: molti modelli potenti

stato della ricerca deep learning
Deep Learning

LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

Lean e Potente: Di Cosa Parla Questo Paper LeJEPA è un framework per il self-supervised learning sviluppato da Randall Balestriero e Yann LeCun che rivoluziona l’approccio alle Joint-Embedding Predictive Architectures (JEPAs). Il paper introduce una teoria completa e matematicamente fondata che elimina gli escamotage empirici (heuristics) tradizionalmente necessari per far funzionare questi modelli, sostituendoli con

stato della ricerca deep learning
Deep Learning

Kimi K2 Thinking: Quando l’AI Impara a Pensare in Profondità

Kimi K2: MoE da 1T parametri Kimi K2 Thinking è il più avanzato modello di ragionamento open-source sviluppato da Moonshot AI, progettato per pensare passo dopo passo come farebbe un essere umano quando affronta problemi complessi. Si tratta di un thinking agent che combina ragionamento approfondito con l’uso autonomo di strumenti esterni, mantenendo la coerenza

stato della ricerca deep learning
Deep Learning

GPT-5.1

OpenAI ha rilasciato l’11 novembre 2025 GPT-5.1, un aggiornamento significativo della serie GPT-5 che porta l’intelligenza artificiale a un nuovo livello di conversazione e precisione. Questo modello si distingue per due versioni complementari: GPT-5.1 Instant e GPT-5.1 Thinking, ciascuna ottimizzata per esigenze diverse. Cosa Rende GPT-5.1 Diverso GPT-5.1 rappresenta un’evoluzione importante nel modo in cui

Torna in alto