Cos’è EGGROLL e come funziona
Il paper introduce EGGROLL, un nuovo algoritmo di Evolution Strategies pensato per addestrare reti neurali con miliardi di parametri senza usare backpropagation, ma mantenendo comunque efficienza e buone prestazioni. L’idea centrale è rendere pratico l’uso di Evolution Strategies su modelli enormi sfruttando una rappresentazione low-rank delle perturbazioni sui pesi, tagliando in modo drastico costi di memoria e calcolo.
Evolution Strategies (ES) sono metodi di ottimizzazione black-box: invece di calcolare gradienti via backpropagation, esplorano direttamente lo spazio dei parametri perturbando il modello e osservando come cambia la performance. Questo li rende adatti a scenari con obiettivi non differenziabili, rumorosi o con segnali di reward complessi, ma nella forma “naïve” diventano rapidamente ingestibili quando si sale a grandi modelli e grandi popolazioni.
EGGROLL risolve proprio questo collo di bottiglia, permettendo di arrivare a throughput di training fino a circa cento volte superiori rispetto a ES full-rank su modelli con miliardi di parametri, quasi al livello di semplice batch inference. Nei risultati sperimentali il paper mostra che, nonostante questi forti risparmi computazionali, EGGROLL mantiene la qualità delle soluzioni in reinforcement learning “tabula-rasa”, è competitivo con GRPO per migliorare il reasoning di large language models, e abilita il pre-training stabile di language models ricorrenti che lavorano interamente in integer.
Per quanto riguarda il codice, al momento nelle informazioni disponibili si parla esplicitamente del sito del progetto ma non di un repository GitHub pubblico dedicato a EGGROLL. Vale quindi la pena tenere d’occhio la pagina ufficiale del paper, indicata anche su arXiv, dove con ogni probabilità verranno aggiunti link a codice e materiali non appena saranno pronti.
Indice
- Cos’è EGGROLL e come funziona
- Dentro EGGROLL: idee e tecniche chiave
- Cosa dicono realmente gli esperimenti
- Concetti da padroneggiare prima di affrontare il paper
- Quiz per mettersi alla prova
- Lavori correlati da conoscere
- Riferimenti e link utili
Dentro EGGROLL: idee e tecniche chiave
L’obiettivo tecnico è prendere Evolution Strategies “classiche” e renderle scalabili a popolazioni molto grandi quando il modello ha pesi rappresentati da matrici enormi. Nelle ES naive si genera, per ogni membro della popolazione, una perturbazione completa dei pesi: ciò richiede memorizzare e moltiplicare grandi matrici dense, con costi che crescono molto rapidamente con la dimensione della rete.
EGGROLL sostituisce queste perturbazioni full-rank con perturbazioni low-rank: invece di costruire una matrice rumorosa grande quanto il layer, costruisce due matrici strette che, combinate, rappresentano una “ombra” compatta della perturbazione completa. In questo modo si passa da dover gestire qualcosa proporzionale al numero totale di elementi della matrice dei pesi a qualcosa che cresce più o meno come la somma delle dimensioni delle due direzioni principali del layer, ottenendo enormi risparmi sia in memoria sia in computazione per ogni forward pass perturbato.
Un punto importante è che l’aggiornamento finale dei pesi non rimane realmente low-rank: poiché si fa la media degli effetti di molti membri della popolazione, la combinazione di tante perturbazioni low-rank produce comunque un aggiornamento complessivamente ricco. Il paper mostra inoltre, con un’analisi teorica, che man mano che si aumenta il “grado” di questa fattorizzazione low-rank, l’aggiornamento risultante converge rapidamente a quello che si otterrebbe con una perturbazione full-rank tradizionale.
Dal punto di vista algoritmico, EGGROLL si integra in una variante parallela di ES ispirata al lavoro classico di Salimans et al., ma sostituendo l’operazione di perturbazione standard con la versione low-rank. Rimane quindi il quadro concettuale di Evolution Strategies (popolazione di parametri, perturbazioni, valutazioni, media pesata), ma viene rivoluzionato il modo in cui si “inietta” rumore nello spazio dei parametri, per adattarsi alla scala dei moderni large models.
Cosa dicono realmente gli esperimenti
Gli autori testano EGGROLL in tre grandi famiglie di esperimenti, mirate a scenari molto diversi tra loro: reinforcement learning da zero, reasoning di large language models e pre-training di language models ricorrenti integer-only. Questo disegno sperimentale serve a convincere che EGGROLL non è un trucco ad-hoc per un solo tipo di problema, ma un approccio generale di ottimizzazione.
Nel setting di reinforcement learning “tabula-rasa”, EGGROLL raggiunge performance paragonabili a quelle di Evolution Strategies classiche, pur essendo molto più veloce grazie alla struttura low-rank. Qui il messaggio principale è che non si sta barattando qualità per velocità: il nuovo metodo mantiene la capacità di esplorare efficacemente lo spazio di policy, ma con costi molto più contenuti.
Nel contesto dei large language models, EGGROLL viene confrontato con GRPO, una tecnica di reinforcement learning oriented specificamente al miglioramento del reasoning. I risultati mostrano che EGGROLL è competitivo con GRPO in compiti di reasoning, dimostrando che Evolution Strategies ben progettate possono essere una vera alternativa alla RL tradizionale per la fase di fine-tuning di LLM.
Infine, un risultato particolarmente originale riguarda il pre-training di language models ricorrenti che operano solo con tipi di dato integer, senza utilizzare floating point durante il forward. In questo contesto, dove backpropagation diventa complicata o poco naturale, l’ottimizzazione black-box via EGGROLL permette un training stabile, aprendo un filone molto interessante per hardware e modelli più discreti.
Concetti da padroneggiare prima di affrontare il paper
Per leggere il paper EGGROLL in modo davvero fruttoso, è utile avere ben chiari alcuni concetti di base legati a optimization e reinforcement learning. Non serve una preparazione da teoria della misura, ma è importante capire il “perché” di Evolution Strategies rispetto a metodi gradient-based classici.
Evolution Strategies (ES)
Le ES vedono l’addestramento del modello come la ricerca di un buon punto nello spazio dei parametri usando una popolazione di candidati che vengono perturbati, valutati e poi aggiornati globalmente. A differenza del classico stochastic gradient descent, non richiedono il calcolo esplicito del gradiente, ma usano differenze finite stimate a partire dalle prestazioni dei modelli perturbati, rendendosi adatte a funzioni obiettivo non derivabili o piene di “spigoli”.Black-box optimization e gradient-free methodsUn algoritmo di ottimizzazione black-box tratta il modello come una scatola nera: si sceglie un set di parametri, si misura un punteggio (reward, loss negativa, ecc.), e si decide come muoversi nello spazio dei parametri solo in base a questi punteggi. Evolution Strategies rientrano in questa categoria, e la loro forza è l’ottima parallelizzabilità, che permette di sfruttare cluster molto grandi per valutare in parallelo molte varianti del modello.
Low-rank parametrization nei pesi di rete
Il concetto di low-rank è fondamentale: significa rappresentare una matrice complessa come combinazione di poche “direzioni” fondamentali, riducendo drasticamente il numero di gradi di libertà espliciti. EGGROLL applica questa idea non ai pesi del modello in sé, ma alle perturbazioni che vengono usate per esplorare lo spazio dei parametri, mantenendo ricchezza di esplorazione ma con memoria e calcolo molto più leggeri.Reinforcement learning “tabula-rasa”
In questi setting, l’agente parte senza conoscenze pregresse dell’ambiente e impara da zero solo tramite reward, spesso scarse o ritardate. ES sono da tempo considerate competitive in questo scenario perché non soffrono di alcuni problemi tipici dei metodi basati su value function, come la sensibilità a orizzonti lunghi e reward molto ritardati.Fine-tuning di LLM con RL e GRPO
Negli ultimi anni, metodi basati su reinforcement learning come PPO e GRPO sono diventati lo standard per affinare LLM su obiettivi di allineamento e reasoning, sfruttando segnali di reward derivati da preferenze umane o metriche automatiche. Il fatto che EGGROLL sia competitivo con GRPO mostra che metodi gradient-free non solo sono fattibili su larga scala, ma possono anche offrire vantaggi di stabilità e semplicità di implementazione.Integer-only recurrent language models
L’idea di usare modelli che operano interamente con rappresentazioni integer è collegata a temi di efficienza hardware, quantization estrema e deployment su dispositivi con risorse limitate. In questi scenari, avere una procedura di training che non dipende fortemente da backpropagation classica è cruciale, ed è qui che EGGROLL mostra un vantaggio concreto.
Quiz per mettersi alla prova
Q: Che problema principale delle Evolution Strategies “naïve” cerca di risolvere EGGROLL?
A: Ridurre il costo computazionale e di memoria delle perturbazioni full-rank sui pesi quando si lavora con modelli di dimensioni molto grandi e popolazioni numerose.
Q: Perché le Evolution Strategies sono considerate metodi di black-box optimization?
A: Perché non richiedono accesso ai gradienti interni del modello e si basano solo sulle valutazioni della funzione obiettivo per diversi set di parametri.
Q: In che modo EGGROLL utilizza l’idea di low-rank per rendere più efficiente l’ottimizzazione?
A: Rappresenta le perturbazioni sui pesi come combinazioni di poche componenti fondamentali (low-rank), invece di usare perturbazioni dense di dimensione piena, riducendo drasticamente memoria e costo dei forward pass.
Q: Qual è il messaggio principale degli esperimenti di reinforcement learning “tabula-rasa” nel paper?
A: Che EGGROLL mantiene prestazioni competitive con ES standard pur essendo molto più veloce, dimostrando che la riduzione di costo non compromette la qualità dell’esplorazione.
Q: In che modo EGGROLL si confronta con GRPO nel miglioramento del reasoning dei large language models?
A: EGGROLL risulta competitivo con GRPO su compiti di reasoning, suggerendo che Evolution Strategies scalabili possono essere una valida alternativa ai metodi RL-based per il fine-tuning di LLM.
Q: Perché il risultato sui recurrent language models integer-only è particolarmente interessante?
A: Perché mostra che EGGROLL può abilitare il pre-training stabile di modelli difficili da trattare con backpropagation standard, aprendo possibilità per modelli e hardware più discreti ed efficienti.
Q: Qual è il legame concettuale fra EGGROLL e il lavoro classico di Salimans et al. sulle Evolution Strategies?
A: EGGROLL riprende la struttura di una ES parallela in stile Salimans ma sostituisce il modo in cui vengono applicate le perturbazioni, passando da full-rank a low-rank per ottenere scalabilità su modelli enormi.
Q: Perché, secondo questo filone di ricerca, le ES sono interessanti per il fine-tuning di LLM rispetto a PPO e GRPO?
A: Perché studi recenti mostrano che ES possono cercare efficientemente in spazi di parametri con miliardi di dimensioni, talvolta superando PPO e GRPO in compiti di reasoning, con maggiore robustezza e stabilità tra run diversi.
Lavori correlati da conoscere
Un riferimento fondamentale è il paper “Evolution Strategies as a Scalable Alternative to Reinforcement Learning” di Salimans et al., che ha mostrato per primo quanto le ES possano scalare bene su molti worker paralleli per risolvere ambienti complessi come MuJoCo e Atari. In quel lavoro, gli autori evidenziano vantaggi come l’invarianza rispetto alla frequenza delle azioni, la tolleranza a orizzonti lunghi e la possibilità di scalare a migliaia di CPU grazie a uno schema di comunicazione molto leggero, preparando il terreno concettuale per metodi come EGGROLL.
Un altro lavoro molto vicino allo spirito di “Evolution Strategies at the Hyperscale” è “Evolution Strategies at Scale: LLM Fine-Tuning” che esplora l’uso di ES per fare fine-tuning full-parameter di large language models. Questo studio mostra che ES possono competere e in alcuni casi superare le tecniche RL-based classiche per il fine-tuning, offrendo maggiore robustezza rispetto a diverse architetture di base e riducendo la tendenza al reward hacking, consolidando l’idea che ES siano una direzione seria per l’ottimizzazione di LLM.
Infine, varie discussioni e articoli divulgativi recenti sottolineano come l’emergere di EGGROLL e dei lavori su ES per LLM rappresenti una vera “seconda vita” per le Evolution Strategies nell’era dei foundation models. La combinazione di scalabilità, natura gradient-free e buona compatibilità con scenari non standard (integer-only models, reward complessi, obiettivi non differenziabili) rende questo filone particolarmente interessante per chi si occupa di deep learning avanzato e deployment su larga scala.
Riferimenti e link utili
- Evolution Strategies at the Hyperscale
- Articolo
- Evolution Strategies at the Hyperscale
- Evolution Strategies at the Hyperscale | Cool Papers – Immersive Paper Discovery
- [1703.03864] Evolution Strategies as a Scalable Alternative to Reinforcement Learning
- Science Cast
- [2509.24372] Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
- Evolution strategies for LLMs: a new approach to fine tuning | Risto Miikkulainen posted on the topic | LinkedIn
- Explore | alphaXiv
- Machine Learning | Cool Papers – Immersive Paper Discovery
- Articolo
- GitHub – Howuhh/evolution_strategies_openai: implementation of “Evolution Strategies as a Scalable Alternative to Reinforcement Learning” OpenAI paper
- GitHub – openai/evolution-strategies-starter: Code for the paper “Evolution Strategies as a Scalable Alternative to Reinforcement Learning”
- Articolo
- evolution-strategy · GitHub Topics · GitHub
- evolution-strategies · GitHub Topics · GitHub
- Evolution Strategies at the Hyperscale
- Articolo
