Nome dell'autore: mauro

stato della ricerca deep learning
Deep Learning

Black-Box On-Policy Distillation of Large Language Models

Il Segreto della “Scatola Nera”: Di Cosa Parla il Paper Questo paper introduce Generative Adversarial Distillation (GAD), un metodo innovativo per distillare Large Language Models quando abbiamo accesso solo agli output testuali del modello teacher, senza poter guardare dentro i suoi parametri o logit interni. È un problema cruciale nel mondo reale: molti modelli potenti […]

stato della ricerca deep learning
Deep Learning

LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

Lean e Potente: Di Cosa Parla Questo Paper LeJEPA è un framework per il self-supervised learning sviluppato da Randall Balestriero e Yann LeCun che rivoluziona l’approccio alle Joint-Embedding Predictive Architectures (JEPAs). Il paper introduce una teoria completa e matematicamente fondata che elimina gli escamotage empirici (heuristics) tradizionalmente necessari per far funzionare questi modelli, sostituendoli con

stato della ricerca deep learning
Deep Learning

Kimi K2 Thinking: Quando l’AI Impara a Pensare in Profondità

Kimi K2: MoE da 1T parametri Kimi K2 Thinking è il più avanzato modello di ragionamento open-source sviluppato da Moonshot AI, progettato per pensare passo dopo passo come farebbe un essere umano quando affronta problemi complessi. Si tratta di un thinking agent che combina ragionamento approfondito con l’uso autonomo di strumenti esterni, mantenendo la coerenza

stato della ricerca deep learning
Deep Learning

GPT-5.1

OpenAI ha rilasciato l’11 novembre 2025 GPT-5.1, un aggiornamento significativo della serie GPT-5 che porta l’intelligenza artificiale a un nuovo livello di conversazione e precisione. Questo modello si distingue per due versioni complementari: GPT-5.1 Instant e GPT-5.1 Thinking, ciascuna ottimizzata per esigenze diverse. Cosa Rende GPT-5.1 Diverso GPT-5.1 rappresenta un’evoluzione importante nel modo in cui

stato della ricerca deep learning
Deep Learning

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

La Rivoluzione Real-Time dei Detection Transformer RF-DETR rappresenta un importante passo avanti nel campo della object detection in real time. Il paper affronta un problema fondamentale: i detector open-vocabulary ottengono risultati impressionanti su dataset standard come COCO, ma spesso falliscono quando vengono applicati a dataset del mondo reale con classi diverse da quelle viste durante

stato della ricerca deep learning
Deep Learning

Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference

Perché “Mixture-of-Channels” Il paper parte da un’osservazione concreta: con FlashAttention, il vero collo di bottiglia di memoria non è più l’attention ma le attivazioni della FFN, soprattutto in pre-training con batch grandi e sequenze lunghe. Mixture-of-Channels (MoC) modifica la FFN “classica” usando il gating nativo di SwiGLU per attivare solo i canali Top-K per token,

stato della ricerca deep learning
Deep Learning

Accelerating Training Speed of Tiny Recursive Models

Il paper “Accelerating Training Speed of Tiny Recursive Models via Curriculum-Guided Adaptive Recursion” introduce CGAR, una metodologia di training che applica “curriculum learning” all’architettura stessa dei Tiny Recursive Models per accelerare l’addestramento mantenendo prestazioni competitive, ottenendo 1.71x di speedup su Sudoku-Extreme con un calo di accuratezza di soli 0.63 punti percentuali rispetto al TRM baseline

Torna in alto