stato della ricerca deep learning
Deep Learning

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Guida a ROOT optimizer: che cos’è, perché è interessante, panoramica risultati ROOT è un nuovo optimizer progettato dal Huawei Noah’s Ark Lab per rendere l’addestramento di Large Language Models più stabile ed efficiente, partendo dalle idee di Muon ma correggendone alcune fragilità. In particolare punta a risolvere due problemi: la sensibilità della procedura di orthogonalization […]

stato della ricerca deep learning
Deep Learning

Soft Adaptive Policy Optimization

Guida a Soft Adaptive Policy Optimization (SAPO): che cos’è, perché è interessante, panoramica dei risultati Soft Adaptive Policy Optimization (SAPO) è un nuovo metodo di reinforcement learning studiato per rendere più stabili ed efficienti gli aggiornamenti di policy quando si allenano Large Language Models, soprattutto in contesti off-policy e con architetture Mixture-of-Experts (MoE). L’idea centrale

stato della ricerca deep learning
Deep Learning

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

Che cos’è Chain-of-Visual-Thought (CoVT) – guida e panoramica Questo paper introduce Chain-of-Visual-Thought (CoVT), un framework che permette ai Vision-Language Models (VLMs) di “pensare” non solo in parole, ma anche in continuous visual tokens, cioè piccoli vettori latenti che rappresentano in modo compatto informazioni visive dense come segmentazione, profondità, bordi e feature semantiche. L’obiettivo è superare

stato della ricerca deep learning
Deep Learning

Monet: Reasoning in Latent Visual Space Beyond Images and Language

Di cosa parla il paper, perché è interessante, panoramica dei risultati Questo paper presenta Monet, un training framework che permette a un MultiModal Large Language Model (MLLM) di ragionare direttamente in un latent visual space, generando continuous embeddings che funzionano come “visual thoughts” intermedi durante il reasoning. Rispetto ai precedenti approcci di thinking with images,

stato della ricerca deep learning
Deep Learning

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Di cosa parla il paper e perché è interessante (guida a CLaRa) Questo paper di Apple introduce CLaRa, un framework per Retrieval-Augmented Generation (RAG) che comprime i documenti in vettori continui e usa un’unica rappresentazione condivisa sia per retrieval sia per generation.L’idea chiave è sostituire il classico schema “retriever su embedding + LLM che legge

stato della ricerca deep learning
Deep Learning

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Di cosa parla Harmony, perché è interessante e dove trovare il paper Harmony è un framework di generative AI pensato per creare video e audio perfettamente sincronizzati, affrontando in modo mirato il classico problema di labiale “sfasato” che si vede spesso nei video generati da modelli open-source. Il lavoro mostra che il disallineamento nasce da

stato della ricerca deep learning
Deep Learning

Qwen3-VL Technical Report

Che cos’è Qwen3-VL: guida completa Qwen3-VL è il nuovo vision-language model della serie Qwen, progettato per lavorare in modo nativo con testo, immagini e video nello stesso contesto di input.Il paper lo presenta come il modello multimodale più potente della famiglia Qwen finora, con risultati di punta su numerosi benchmark multimodali, inclusi test di ragionamento

stato della ricerca deep learning
Deep Learning

TiDAR: Think in Diffusion, Talk in Autoregression

Di cosa parla il paper, perché è interessante e panoramica dei risultati Il paper “TiDAR: Think in Diffusion, Talk in Autoregression”, pubblicato dai ricercatori di NVIDIA nel novembre 2025, affronta uno dei dilemmi centrali nell’attuale panorama dei Large Language Models (LLM): il compromesso tra velocità di generazione e qualità del testo. Tradizionalmente, abbiamo due approcci

stato della ricerca deep learning
Deep Learning

Z-Image: Generazione Efficiente di Immagini con Single-Stream Diffusion Transformer

Cos’è Z-Image e perché è interessante Z-Image rappresenta un importante passo avanti nel campo della generazione di immagini da testo (text-to-image generation). Sviluppato dal team Tongyi-MAI di Alibaba, questo modello dimostra che prestazioni di altissimo livello nella generazione di immagini fotorealistiche possono essere raggiunte senza dover ricorrere a modelli di dimensioni enormi. Con soli 6

stato della ricerca deep learning
Deep Learning

Continuous Thought Machines: una nuova architettura per il “pensiero continuo” nelle neural network

Che cos’è Continuous Thought Machines e perché è interessante Il paper Continuous Thought Machines (CTM), di Darlow, Regan, Risi, Seely e Jones, propone una nuova famiglia di neural network che mette al centro il tempo e le neural dynamics come vera e propria rappresentazione interna, invece di trattarle come un dettaglio implementativo.L’idea è far sì

stato della ricerca deep learning
Deep Learning

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Di cosa parla il paper DR-Tulu Il paper “DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research” rappresenta una svolta significativa nel campo dei Deep Research Agents. Fino ad oggi, i modelli open-source faticavano a competere con sistemi proprietari (come OpenAI Deep Research o Perplexity) in compiti di ricerca complessi e a lungo termine

stato della ricerca deep learning
Deep Learning

Fara-7B: L’Agente AI che Usa il Tuo PC

Immaginate un assistente digitale che non si limita a chiacchierare o riassumere email, ma che prende letteralmente il controllo del mouse e della tastiera per svolgere compiti complessi al posto vostro. Ora immaginate che questo assistente non richieda un supercomputer da milioni di dollari, ma possa girare in modo efficiente su hardware accessibile. Ecco a

stato della ricerca deep learning
Deep Learning

Guida completa ai prompt per Gemini 3 Pro

Gemini 3 Pro è un modello multimodale avanzato, progettato per ragionare su compiti complessi e seguire istruzioni in modo molto preciso. Usare bene i prompt fa la differenza tra risposte superficiali e risultati davvero utili in coding, analisi testi, contenuti marketing, studio e lavoro. In questa guida trovi principi base, struttura consigliata del prompt, esempi

stato della ricerca deep learning
Deep Learning

Claude Opus 4.5 Anthropic: Nuovo Modello AI che Ridefinisce il Futuro della Programmazione

La Rivoluzione dell’Intelligenza Artificiale: Cosa Rende Claude Opus 4.5 Straordinario Claude Opus 4.5 rappresenta il più recente e potente modello di intelligenza artificiale sviluppato da Anthropic, lanciato il 23 novembre 2025. Questo modello segna un salto qualitativo significativo nelle capacità di ragionamento complesso, programmazione avanzata e gestione di task aziendali sofisticati, posizionandosi come uno degli

stato della ricerca deep learning
Deep Learning

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Cos’è OpenMMReasoner e come funziona Il paper introduce OpenMMReasoner, una ricetta completa e “end-to-end” per addestrare Large Multimodal Reasoning Models (LMRMs) a partire da un modello open-source (Qwen2.5-VL-7B-Instruct), usando prima Supervised Fine-tuning (SFT) e poi Reinforcement Learning (RL) con ricompense verificabili.L’obiettivo non è proporre “solo un nuovo modello”, ma soprattutto condividere in modo trasparente dati,

logo vita di azienda e prodotto
Azienda e Prodotto

Machine Learning Engineer: La Guida Definitiva per Trovare il Profilo Giusto nel 2025

Trovare i migliori profili MLE non è mai stato più complicato, specialmente in Italia. Come si trovano i migliori talenti adatti ai propri obiettivi di business? L’intelligenza artificiale non è più un concetto futuristico, ma un motore strategico per il business moderno. Al centro di questa rivoluzione c’è una figura professionale tanto richiesta quanto complessa:

stato della ricerca deep learning
Deep Learning

Evolution Strategies at the Hyperscale

Cos’è EGGROLL e come funziona Il paper introduce EGGROLL, un nuovo algoritmo di Evolution Strategies pensato per addestrare reti neurali con miliardi di parametri senza usare backpropagation, ma mantenendo comunque efficienza e buone prestazioni. L’idea centrale è rendere pratico l’uso di Evolution Strategies su modelli enormi sfruttando una rappresentazione low-rank delle perturbazioni sui pesi, tagliando

stato della ricerca deep learning
Deep Learning

NaTex: Seamless Texture Generation as Latent Color Diffusion

Texture 3D di nuova generazione con latent diffusion nativa nello spazio 3D Un nuovo modo di pensare la generazione di texture 3D Questo articolo riassume e approfondisce il paper NaTex: Seamless Texture Generation as Latent Color Diffusion, che introduce un framework innovativo per la 3D texture generation.A differenza degli approcci tradizionali basati su immagini 2D

stato della ricerca deep learning
Deep Learning

Gradio 6: La libreria per i tuoi progetti AI

Cos’è Gradio 6 e Novità Gradio è una libreria open-source in Python che ti permette di costruire in pochi minuti una web app per un model di Machine Learning, un’API o qualsiasi funzione Python, senza dover sapere nulla di frontend o JavaScript.Con Gradio 6 questo approccio “pochi file, tanta potenza” viene spinto ancora oltre, con

Torna in alto