Accelerating Training Speed of Tiny Recursive Models

stato della ricerca deep learning

Il paper “Accelerating Training Speed of Tiny Recursive Models via Curriculum-Guided Adaptive Recursion” introduce CGAR, una metodologia di training che applica “curriculum learning” all’architettura stessa dei Tiny Recursive Models per accelerare l’addestramento mantenendo prestazioni competitive, ottenendo 1.71x di speedup su Sudoku-Extreme con un calo di accuratezza di soli 0.63 punti percentuali rispetto al TRM baseline su hardware identico. L’idea centrale combina un programma di profondità ricorsiva progressiva e un pesaggio gerarchico della supervisione per ridurre FLOPs e varianza del gradiente, trasferendo i guadagni anche in inference con halting al 100% e l’11% di passi in meno.

Link al paper.

Indice

CGAR – Cosa c’è di nuovo in e perché conta

Il lavoro “Accelerating Training Speed of Tiny Recursive Models via Curriculum-Guided Adaptive Recursion” presenta CGAR come un cambio di paradigma: invece di ordinare i dati, si orchestra la profondità di ricorsione durante il training, adattandola all’avanzamento dell’ottimizzazione per evitare overfitting precoce e sprechi computazionali. Su 423.168 puzzle “Sudoku-Extreme” si passa da 10.93 h a 6.38 h di training a parità di GPU con una riduzione del 42% dei costi e accuratezza quasi invariata (86.65%→86.02%), rendendo più accessibile la ricerca su modelli ricorsivi “tiny”.

CGAR – Approcci e tecniche, in breve

CGAR integra due componenti complementari: Progressive Depth Curriculum (PDC), che pianifica la profondità ricorsiva da shallow a full durante il training, e Hierarchical Supervision Weighting (HSW), che decresce esponenzialmente il peso delle perdite ai passi tardi per allinearsi al naturale decadimento del gradiente nelle architetture ricorsive. Il design è pensato per TRM ma resta agnostico al modello ricorsivo, e si affianca a meccanismi di halting in stile ACT per ottenere efficienza anche a test-time.

CGAR – Dentro la cassetta degli attrezzi

Progressive Depth Curriculum

PDC modula la coppia di iperparametri di ricorsione (ad es. n cicli “low-level” e T cicli “high-level”) su tre fasi, iniziando da configurazioni shallow per stabilizzare l’ottimizzazione e salire a piena profondità quando il modello è più maturo, riducendo i FLOPs per epoca e l’overfitting iniziale. Questa strategia porta da sola a un speedup empirico di 2.26x con accuratezza comparabile, rappresentando un raro miglioramento Pareto nel trade-off tra costo e qualità.

Hierarchical Supervision Weighting

HSW applica un pesaggio gerarchico decrescente ai passi di supervisione, concentrando l’apprendimento dove il segnale informativo è più alto e riducendo la varianza del gradiente di circa il 40% osservato, con un’accelerazione autonoma di 1.61x nelle ablation. Combinato con PDC, il beneficio complessivo è 1.71x per via di interazioni subadditive: i due meccanismi condividono parte delle stesse cause di accelerazione.

Relazione con ACT e halting

L’halting è appreso con un head dedicato e supervisionato, consentendo di fermarsi quando il puzzle è risolto, caratteristica affine alla filosofia di Adaptive Computation Time (ACT) che regola i passi di calcolo in funzione della difficoltà dell’input. In inference i modelli CGAR mostrano halting al 100% e l’11% di passi in meno, trasferendo i guadagni di training all’uso reale.

CGAR – Risultati, scomposti bene

Confronto principale

Su Sudoku-Extreme, CGAR riduce il wall-clock di training da 10.93 a 6.38 ore (1.71x) con accuratezza test 86.02% contro 86.65% del TRM baseline allenato su identico hardware, mantenendo token accuracy molto vicina e tagliando il costo del 42%. Il modello CGAR risolve 364.069 puzzle rispetto ai 366.636 del checkpoint baseline comparabile, mostrando parità sostanziale di qualità a fronte di un training significativamente più rapido.

Progressione e checkpoint

Durante la fase full-depth, CGAR migliora l’exact accuracy di circa 3.3 punti mentre il guadagno di token accuracy è più contenuto, segnale che la rete affina soprattutto la soddisfazione dei vincoli globali del Sudoku nelle ultime epoche. A parità di numero di update, CGAR raggiunge checkpoint simili in molto meno tempo grazie ai risparmi di FLOPs delle fasi shallow e medium del curriculum.

Ablation e contributi

Nelle ablation 2×2: PDC da solo offre 2.26x di speedup con accuratezza ~85.47%, HSW da solo 1.61x ma con accuratezza inferiore, e la combinazione si assesta su 1.71x con accuratezza intermedia, mostrando interazioni non puramente moltiplicative. Questi risultati chiariscono il ruolo dominante della pianificazione della profondità nel contenere i costi senza sacrificare troppo la qualità.

CGAR – Concetti da chiarire

Tiny Recursive Model (TRM)

TRM dimostra che piccole reti con ricorsione e deep supervision possono eguagliare o superare modelli enormi in task di reasoning come Sudoku e ARC-AGI, usando effective depth tramite cicli ricorsivi e un backbone minimale. Il costo chiave resta il training fisso alla massima profondità in tutte le epoche, cosa che CGAR mira a correggere con un percorso di profondità progressiva e pesi gerarchici.

Curriculum “architetturale”

Spostare il curriculum learning dalla selezione dei dati alla profondità dell’architettura significa trattare la compute depth come un iperparametro dinamico che evolve con il training progress, riducendo sprechi nelle fasi iniziali. È un cambio di mentalità utile ogni volta che la capacità strutturale può essere “accesa” gradualmente per allinearsi allo stato di apprendimento del modello.

Supervisione profonda e pesaggio gerarchico

La deep supervision aiuta la stabilità nelle architetture ricorsive, ma pesare in modo uniforme tutti i passi può amplificare rumore e gradiente debole nelle fasi tardive, rallentando la convergenza. HSW risolve questo, riallocando il focus di apprendimento ai passi dove il segnale è più informativo per la generalizzazione.

Halting e compute adattivo

L’halting appreso consente di fermare il reasoning quando sufficiente, riducendo latenza e costo in inference con benefici misurabili su passi medi per puzzle. Questo si inserisce nella tradizione del compute adattivo inaugurata da ACT per RNN, dove il modello decide quanti passi servono per un input specifico.

CGAR Mini-quiz e flashcard

  • Q: Qual è l’idea chiave di CGAR per accelerare il training dei modelli ricorsivi “tiny”? A: Usare un curriculum sulla profondità di ricorsione e un pesaggio gerarchico della supervisione per ridurre FLOPs e varianza del gradiente senza perdere molta accuratezza.
  • Q: Cosa fa il Progressive Depth Curriculum nelle prime epoche? A: Limita la profondità a configurazioni shallow/medium per stabilizzare l’ottimizzazione e tagliare calcolo, salendo a full-depth solo quando serve.
  • Q: Perché serve Hierarchical Supervision Weighting? A: Per enfatizzare i passi informativi iniziali e attenuare il rumore dei passi tardivi, allineandosi al decadimento naturale del gradiente nelle architetture ricorsive.
  • Q: Che speedup e accuratezza riporta il paper su Sudoku-Extreme? A: 1.71x di speedup (10.93→6.38 h) con accuratezza da 86.65% a 86.02% su hardware identico.
  • Q: Come si collegano CGAR e ACT? A: CGAR allena con curriculum e pesi gerarchici mentre l’halting in stile ACT consente compute adattivo a test-time, migliorando passi medi e affidabilità dello stop.

CGAR – Studi collegati da conoscere

  • Tiny Recursive Model (TRM): propone un approccio ricorsivo minimale che supera HRM in generalizzazione su più benchmark con una rete piccola, ma con training costoso a profondità fissa che CGAR aiuta ad alleviare. Il confronto di CGAR è definito rispetto a un baseline TRM replicato su hardware identico per misurare speedup e trade-off di accuratezza.
  • Hierarchical Reasoning Model (HRM): architettura ricorrente a due tempi (moduli H e L) che punta a grande profondità computazionale e forti risultati su Sudoku, ma con maggiore complessità e costo di addestramento rispetto a TRM. TRM semplifica HRM mantenendo capacità di reasoning, e CGAR accelera ulteriormente il training nel quadro TRM.
  • Adaptive Computation Time (ACT): meccanismo classico per far apprendere a una rete quanta computazione eseguire per input, ispirazione per l’halting affidabile e l’efficienza in inference nei modelli ricorsivi moderni. L’uso di halting in CGAR mostra 100% di accuratezza di stop e meno passi medi, beneficiando la latenza reale.
Torna in alto