stato della ricerca deep learning
Deep Learning

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

La Rivoluzione Real-Time dei Detection Transformer RF-DETR rappresenta un importante passo avanti nel campo della object detection in real time. Il paper affronta un problema fondamentale: i detector open-vocabulary ottengono risultati impressionanti su dataset standard come COCO, ma spesso falliscono quando vengono applicati a dataset del mondo reale con classi diverse da quelle viste durante […]

stato della ricerca deep learning
Deep Learning

Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference

Perché “Mixture-of-Channels” Il paper parte da un’osservazione concreta: con FlashAttention, il vero collo di bottiglia di memoria non è più l’attention ma le attivazioni della FFN, soprattutto in pre-training con batch grandi e sequenze lunghe. Mixture-of-Channels (MoC) modifica la FFN “classica” usando il gating nativo di SwiGLU per attivare solo i canali Top-K per token,

stato della ricerca deep learning
Deep Learning

Accelerating Training Speed of Tiny Recursive Models

Il paper “Accelerating Training Speed of Tiny Recursive Models via Curriculum-Guided Adaptive Recursion” introduce CGAR, una metodologia di training che applica “curriculum learning” all’architettura stessa dei Tiny Recursive Models per accelerare l’addestramento mantenendo prestazioni competitive, ottenendo 1.71x di speedup su Sudoku-Extreme con un calo di accuratezza di soli 0.63 punti percentuali rispetto al TRM baseline

Torna in alto