Il paper “Accelerating Training Speed of Tiny Recursive Models via Curriculum-Guided Adaptive Recursion” introduce CGAR, una metodologia di training che applica “curriculum learning” all’architettura stessa dei Tiny Recursive Models per accelerare l’addestramento mantenendo prestazioni competitive, ottenendo 1.71x di speedup su Sudoku-Extreme con un calo di accuratezza di soli 0.63 punti percentuali rispetto al TRM baseline su hardware identico. L’idea centrale combina un programma di profondità ricorsiva progressiva e un pesaggio gerarchico della supervisione per ridurre FLOPs e varianza del gradiente, trasferendo i guadagni anche in inference con halting al 100% e l’11% di passi in meno.
Link al paper.
Indice
- CGAR – Cosa c’è di nuovo in e perché conta
- CGAR – Approcci e tecniche, in breve
- CGAR – Dentro la cassetta degli attrezzi
- CGAR – Risultati, scomposti bene
- CGAR – Concetti da chiarire
- CGAR Mini-quiz e flashcard
- CGAR – Studi collegati da conoscere
- CGAR – Riferimenti e link utili
CGAR – Cosa c’è di nuovo in e perché conta
Il lavoro “Accelerating Training Speed of Tiny Recursive Models via Curriculum-Guided Adaptive Recursion” presenta CGAR come un cambio di paradigma: invece di ordinare i dati, si orchestra la profondità di ricorsione durante il training, adattandola all’avanzamento dell’ottimizzazione per evitare overfitting precoce e sprechi computazionali. Su 423.168 puzzle “Sudoku-Extreme” si passa da 10.93 h a 6.38 h di training a parità di GPU con una riduzione del 42% dei costi e accuratezza quasi invariata (86.65%→86.02%), rendendo più accessibile la ricerca su modelli ricorsivi “tiny”.
CGAR – Approcci e tecniche, in breve
CGAR integra due componenti complementari: Progressive Depth Curriculum (PDC), che pianifica la profondità ricorsiva da shallow a full durante il training, e Hierarchical Supervision Weighting (HSW), che decresce esponenzialmente il peso delle perdite ai passi tardi per allinearsi al naturale decadimento del gradiente nelle architetture ricorsive. Il design è pensato per TRM ma resta agnostico al modello ricorsivo, e si affianca a meccanismi di halting in stile ACT per ottenere efficienza anche a test-time.
CGAR – Dentro la cassetta degli attrezzi
Progressive Depth Curriculum
PDC modula la coppia di iperparametri di ricorsione (ad es. n cicli “low-level” e T cicli “high-level”) su tre fasi, iniziando da configurazioni shallow per stabilizzare l’ottimizzazione e salire a piena profondità quando il modello è più maturo, riducendo i FLOPs per epoca e l’overfitting iniziale. Questa strategia porta da sola a un speedup empirico di 2.26x con accuratezza comparabile, rappresentando un raro miglioramento Pareto nel trade-off tra costo e qualità.
Hierarchical Supervision Weighting
HSW applica un pesaggio gerarchico decrescente ai passi di supervisione, concentrando l’apprendimento dove il segnale informativo è più alto e riducendo la varianza del gradiente di circa il 40% osservato, con un’accelerazione autonoma di 1.61x nelle ablation. Combinato con PDC, il beneficio complessivo è 1.71x per via di interazioni subadditive: i due meccanismi condividono parte delle stesse cause di accelerazione.
Relazione con ACT e halting
L’halting è appreso con un head dedicato e supervisionato, consentendo di fermarsi quando il puzzle è risolto, caratteristica affine alla filosofia di Adaptive Computation Time (ACT) che regola i passi di calcolo in funzione della difficoltà dell’input. In inference i modelli CGAR mostrano halting al 100% e l’11% di passi in meno, trasferendo i guadagni di training all’uso reale.
CGAR – Risultati, scomposti bene
Confronto principale
Su Sudoku-Extreme, CGAR riduce il wall-clock di training da 10.93 a 6.38 ore (1.71x) con accuratezza test 86.02% contro 86.65% del TRM baseline allenato su identico hardware, mantenendo token accuracy molto vicina e tagliando il costo del 42%. Il modello CGAR risolve 364.069 puzzle rispetto ai 366.636 del checkpoint baseline comparabile, mostrando parità sostanziale di qualità a fronte di un training significativamente più rapido.
Progressione e checkpoint
Durante la fase full-depth, CGAR migliora l’exact accuracy di circa 3.3 punti mentre il guadagno di token accuracy è più contenuto, segnale che la rete affina soprattutto la soddisfazione dei vincoli globali del Sudoku nelle ultime epoche. A parità di numero di update, CGAR raggiunge checkpoint simili in molto meno tempo grazie ai risparmi di FLOPs delle fasi shallow e medium del curriculum.
Ablation e contributi
Nelle ablation 2×2: PDC da solo offre 2.26x di speedup con accuratezza ~85.47%, HSW da solo 1.61x ma con accuratezza inferiore, e la combinazione si assesta su 1.71x con accuratezza intermedia, mostrando interazioni non puramente moltiplicative. Questi risultati chiariscono il ruolo dominante della pianificazione della profondità nel contenere i costi senza sacrificare troppo la qualità.
CGAR – Concetti da chiarire
Tiny Recursive Model (TRM)
TRM dimostra che piccole reti con ricorsione e deep supervision possono eguagliare o superare modelli enormi in task di reasoning come Sudoku e ARC-AGI, usando effective depth tramite cicli ricorsivi e un backbone minimale. Il costo chiave resta il training fisso alla massima profondità in tutte le epoche, cosa che CGAR mira a correggere con un percorso di profondità progressiva e pesi gerarchici.
Curriculum “architetturale”
Spostare il curriculum learning dalla selezione dei dati alla profondità dell’architettura significa trattare la compute depth come un iperparametro dinamico che evolve con il training progress, riducendo sprechi nelle fasi iniziali. È un cambio di mentalità utile ogni volta che la capacità strutturale può essere “accesa” gradualmente per allinearsi allo stato di apprendimento del modello.
Supervisione profonda e pesaggio gerarchico
La deep supervision aiuta la stabilità nelle architetture ricorsive, ma pesare in modo uniforme tutti i passi può amplificare rumore e gradiente debole nelle fasi tardive, rallentando la convergenza. HSW risolve questo, riallocando il focus di apprendimento ai passi dove il segnale è più informativo per la generalizzazione.
Halting e compute adattivo
L’halting appreso consente di fermare il reasoning quando sufficiente, riducendo latenza e costo in inference con benefici misurabili su passi medi per puzzle. Questo si inserisce nella tradizione del compute adattivo inaugurata da ACT per RNN, dove il modello decide quanti passi servono per un input specifico.
CGAR Mini-quiz e flashcard
- Q: Qual è l’idea chiave di CGAR per accelerare il training dei modelli ricorsivi “tiny”? A: Usare un curriculum sulla profondità di ricorsione e un pesaggio gerarchico della supervisione per ridurre FLOPs e varianza del gradiente senza perdere molta accuratezza.
- Q: Cosa fa il Progressive Depth Curriculum nelle prime epoche? A: Limita la profondità a configurazioni shallow/medium per stabilizzare l’ottimizzazione e tagliare calcolo, salendo a full-depth solo quando serve.
- Q: Perché serve Hierarchical Supervision Weighting? A: Per enfatizzare i passi informativi iniziali e attenuare il rumore dei passi tardivi, allineandosi al decadimento naturale del gradiente nelle architetture ricorsive.
- Q: Che speedup e accuratezza riporta il paper su Sudoku-Extreme? A: 1.71x di speedup (10.93→6.38 h) con accuratezza da 86.65% a 86.02% su hardware identico.
- Q: Come si collegano CGAR e ACT? A: CGAR allena con curriculum e pesi gerarchici mentre l’halting in stile ACT consente compute adattivo a test-time, migliorando passi medi e affidabilità dello stop.
CGAR – Studi collegati da conoscere
- Tiny Recursive Model (TRM): propone un approccio ricorsivo minimale che supera HRM in generalizzazione su più benchmark con una rete piccola, ma con training costoso a profondità fissa che CGAR aiuta ad alleviare. Il confronto di CGAR è definito rispetto a un baseline TRM replicato su hardware identico per misurare speedup e trade-off di accuratezza.
- Hierarchical Reasoning Model (HRM): architettura ricorrente a due tempi (moduli H e L) che punta a grande profondità computazionale e forti risultati su Sudoku, ma con maggiore complessità e costo di addestramento rispetto a TRM. TRM semplifica HRM mantenendo capacità di reasoning, e CGAR accelera ulteriormente il training nel quadro TRM.
- Adaptive Computation Time (ACT): meccanismo classico per far apprendere a una rete quanta computazione eseguire per input, ispirazione per l’halting affidabile e l’efficienza in inference nei modelli ricorsivi moderni. L’uso di halting in CGAR mostra 100% di accuratezza di stop e meno passi medi, beneficiando la latenza reale.
CGAR – Riferimenti e link utili
- [2511.08653] Accelerating Training Speed of Tiny Recursive Models via Curriculum Guided Adaptive Recursion
- Accelerating Training Speed of Tiny Recursive Models via Curriculum-Guided Adaptive Recursion
- [1603.08983] Adaptive Computation Time for Recurrent Neural Networks
- [2510.04871] Less is More: Recursive Reasoning with Tiny Networks
- Less is More: Recursive Reasoning with Tiny Networks
- Articolo
- [2506.21734] Hierarchical Reasoning Model
- Articolo
- Paper page – Less is More: Recursive Reasoning with Tiny Networks
- Tiny Recursive Model – by Grigory Sapunov – Gonzo ML
- From Neuroscience to AI: The Rise of the Hierarchical Reasoning Model – Engineering Blog
- Articolo
- Test-time Adaptation of Tiny Recursive Models
- Articolo
- Hierarchical Reasoning Model
- Tiny Recursive Model outperforms large language models on logic tasks | Hesham Haroon posted on the topic | LinkedIn
- Hierarchical Reasoning Model: A Critical Supplementary Material
- Articolo
- [2510.00355] Hierarchical Reasoning Models: Perspectives and Misconceptions
- Adaptive Computation Time for Recurrent Neural Networks on ShortScience.org
- Hierarchical Reasoning Models: Perspectives and Misconceptions
- Articolo
- Bridging the Gap Between Theoretical and Practical Reinforcement Learning in Undergraduate Education
- Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
- Articolo
- Articolo
- Articolo
- Efficient Reinforcement Finetuning via Adaptive Curriculum Learning
- Alberto Bemporad’s Publications
