Che cosa introduce SEAL: novità sui Self-Adapting Language Models e panoramica dei risultati
Il paper “Self-Adapting Language Models” introduce SEAL, un framework per LLM che prova a rispondere a una domanda molto concreta: è possibile avere modelli che non siano solo “statici” ma che imparino da soli, generando i propri dati di training e decidendo come aggiornare i propri pesi in base ai nuovi compiti?
Oggi un LLM, anche molto grande, funziona così: viene pre-addestrato una volta su un immenso corpus di testo, poi magari viene fatto un po’ di fine-tuning supervisionato, e da lì in avanti rimane sostanzialmente congelato. Se vogliamo che sappia qualcosa di nuovo, o che si specializzi su un task, dobbiamo intervenire dall’esterno con un nuovo round di fine-tuning, oppure fornirgli molti esempi in prompt (in-context learning). Questo schema ha due limiti forti: l’aggiornamento è costoso e manuale, e il modello non ha nessun “motore interno” per decidere come imparare meglio da ciò che vede.
SEAL propone una novità di prospettiva: il modello diventa attivo nel proprio apprendimento. Dato un nuovo contesto (per esempio un nuovo documento da integrare o pochi esempi di un task difficile), il LLM non viene solo interrogato, ma genera una self-edit, cioè un pezzo di testo che descrive i dati di cui vuole fare fine-tuning e, se serve, anche le impostazioni di training (per esempio gli hyperparameter di ottimizzazione o le trasformazioni di data augmentation). Questa self-edit viene poi usata per un vero aggiornamento dei pesi tramite supervised fine-tuning, così che il cambiamento non sia solo “in-context” e temporaneo, ma scritto nei pesi del modello.
Per insegnare al modello a scrivere self-edit davvero utili, gli autori usano reinforcement learning. Il ciclo è questo, in parole semplici: il modello propone una self-edit, il sistema la applica, valuta quanto migliora la performance su un task di riferimento, e usa questo miglioramento come reward per aggiornare la policy che genera le future self-edit. Dopo diverse iterazioni, il modello impara non solo a dare buone risposte, ma a generare buoni dati di training per se stesso e istruzioni efficaci su come aggiornarsi.
Il paper dimostra SEAL in due scenari distinti ma complementari:
Primo, knowledge incorporation, cioè la capacità di incorporare nuova conoscenza nel modello in modo persistente. Gli autori prendono passaggi di SQuAD e misurano quanto bene il modello, dopo l’aggiornamento, sa rispondere a domande su quei passaggi senza averli più in context. SEAL genera implicazioni e riscritture basate sul testo e usa queste frasi come synthetic data per il fine-tuning.
Secondo, few-shot learning in stile ARC-AGI, dove il modello vede pochissimi esempi di un compito astratto di ragionamento su griglie colorate e deve capire da solo quali trasformazioni applicare ai dati, quanta training data sintetica generare, e quali hyperparameter usare per adattarsi al task. Anche qui, la self-edit è la “configurazione” che descrive data augmentations e parametri di training, e viene ottimizzata con reinforcement learning.
I risultati principali sono due e segnano le novità di SEAL:
Primo, su few-shot abstract reasoning in stile ARC, SEAL aumenta il tasso di successo di adattamento al 72,5%, contro il 20% ottenuto usando self-edit generate dal modello senza reinforcement learning e lo 0% di semplice in-context learning senza aggiornare i pesi. L’oracolo con configurazione “perfetta” scelto a mano resta al 100%, ma SEAL si avvicina molto senza supervisione umana sulle strategie.
Secondo, su knowledge incorporation con Qwen2.5-7B su SQuAD, SEAL porta l’accuratezza nel rispondere alle domande senza context da circa 33% (modello base) a 47%, superando anche un setup in cui i dati sintetici sono generati da GPT-4.1, un modello molto più grande. In scenari di continued pretraining con molti documenti, SEAL resta competitivo o vicino alla miglior variante con GPT-4.1, mostrando che la policy di self-edit generalizza anche oltre il caso per cui è stata addestrata.
In altre parole, la novità chiave è questa: SEAL trasforma un LLM in un sistema che decide come imparare da solo, rendendo il modello capace di generare la propria training recipe in modo data-driven, e ottimizzando questa capacità con reinforcement learning. È un passo verso LLM più “agentici”, che non si limitano a usare la conoscenza, ma la integrano in modo persistente nel tempo.
Alla fine, se vuoi andare direttamente alle risorse pratiche, hai tutto concentrato qui: repository GitHub ufficiale: SEAL – Self-Adapting Language Models, pagina arxiv del paper: Self-Adapting Language Models, dataset di riferimento: SQuAD – Stanford Question Answering Dataset e ARC-AGI – Abstraction and Reasoning Corpus.
Indice
- Che cosa introduce SEAL: novità sui Self-Adapting Language Models e panoramica dei risultati
- Come funziona SEAL: approccio, tecniche e training recipe
- Risultati: breakdown delle prestazioni e confronto con le baseline
- Concetti chiave da capire bene: guida completa ai temi fondamentali del paper
- Quiz di auto-verifica: domande e risposte su SEAL
- Qual è la novità principale di SEAL rispetto al fine-tuning classico?
- In che cosa consiste una self-edit nel setting di knowledge incorporation?
- Come funziona SEAL nel caso del few-shot learning su ARC?
- Perché gli autori usano LoRA invece di aggiornare tutti i pesi del modello?
- Che cosa ci dicono i risultati di SEAL su SQuAD rispetto ai dati sintetici generati da GPT-4.1?
- SEAL risolve il problema del catastrophic forgetting nei modelli continui?
- Studi correlati e contesto di ricerca: dove si inserisce SEAL
- Riferimenti e link utili
Come funziona SEAL: approccio, tecniche e training recipe
Per capire bene come funziona SEAL, conviene pensare a un ciclo a due livelli: un inner loop che aggiorna i pesi del modello usando la self-edit corrente e un outer loop di reinforcement learning che insegna al modello a scrivere self-edit sempre migliori.
Immagina di avere un LLM con parametri θ. Quando arriva un nuovo “episodio” di apprendimento, definito da un contesto C e da un task di valutazione τ (per esempio un passaggio di testo più un set di domande, oppure qualche esempio ARC più un input di test), il modello viene chiamato a generare una self-edit (SE). Questa self-edit è semplicemente un testo prodotto dal modello, ma con un ruolo speciale: descrive i dati o le istruzioni che useremo per aggiornare i pesi.
Nel caso di knowledge incorporation, la self-edit è una serie di frasi del tipo “implicazioni del passaggio”. Il modello riceve il passaggio in context e un prompt che lo invita a elencare inferenze, riformulazioni, deduzioni e fatti atomici che derivano dal testo. Queste frasi diventano il mini-dataset sintetico SE su cui fare fine-tuning. In pratica, il modello riscrive il contenuto in una forma che ritiene più adatta a essere appresa dai propri pesi, un po’ come uno studente che si fa gli appunti riscrivendo il capitolo del libro in parole proprie.
Nel caso di few-shot ARC, la self-edit è più “strutturata” e assomiglia a un piccolo file di configurazione. Contiene flag che attivano o disattivano diversi tipi di data augmentation (rotazioni delle griglie, flip, riflessioni, cambi di risoluzione, combinazioni di trasformazioni) e parametri come learning rate, numero di epoch, e strategia per calcolare la loss (per esempio se calcolare la loss su tutti i token o solo sui token di output). Qui la self-edit non è training data, ma una descrizione del training pipeline che il modello vuole usare su quel task.
Una volta generata la self-edit, entra in gioco l’inner loop. Il sistema prende SE, costruisce da essa il dataset o la configurazione di training, e lancia un breve round di supervised fine-tuning (SFT) sul modello. Questo avviene in modo leggero usando LoRA, cioè adattatori a bassa dimensione che permettono di aggiornare poche matrici “aggiuntive” senza toccare tutti i pesi del modello principale. LoRA rende possibile fare molte self-edit e molti aggiornamenti senza costi proibitivi. Dopo l’update, otteniamo un nuovo modello θ′ che è la versione “adattata” a quel contesto.
A questo punto entra il reinforcement learning nell’outer loop. Per ogni episodio, si misura quanto θ′ performa bene sul task τ, per esempio l’accuratezza nel rispondere alle domande su SQuAD senza context, oppure la correttezza dell’output ARC sul test set. Questa metrica diventa il reward associato alla self-edit generata all’inizio. Più la self-edit ha portato un miglioramento di performance rispetto a una baseline, più alto è il reward. Il modello viene quindi aggiornato per aumentare la probabilità di generare in futuro self-edit simili a quelle che hanno ottenuto reward elevato.
Per implementare questo ciclo, gli autori usano una variante di self-training RL chiamata ReST-EM (ReSTEM). L’idea, in breve, è generare più candidate self-edit, valutare quali funzionano meglio, e poi fare supervised fine-tuning sul modello usando proprio quelle self-edit “vincenti” come target, invece di aggiornare direttamente via policy gradient classico. Questo rende l’algoritmo più stabile ed efficiente, riutilizzando i campioni buoni come nuova supervisione.
È importante notare una cosa: nel paper gli autori usano lo stesso modello sia come policy che genera la self-edit, sia come modello da aggiornare con quella self-edit. Ma spiegano anche che in futuro sarebbe possibile separare i ruoli, usando un modello “teacher” che propone self-edit e un modello “student” che viene aggiornato, così da avere più flessibilità e controllare meglio la stabilità.
Sul fronte dei modelli concreti, per gli esperimenti usano:
- Qwen2.5-7B per gli esperimenti di knowledge incorporation su SQuAD, con self-edit generate in forma di implicazioni e riscritture.
- Llama-3.2-1B-Instruct per gli esperimenti few-shot su ARC, scelto proprio perché è piccolo e non pre-addestrato su ARC, così da vedere un miglioramento chiaro dovuto al meccanismo SEAL e non a conoscenza preesistente sul benchmark.
In sintesi, la training recipe di SEAL è un continuo alternarsi di generazione di self-edit, inner loop di SFT con LoRA, valutazione delle performance, e outer loop di RL tipo ReST-EM che rinforza le strategie di self-edit più efficaci. È questo ciclo a rendere SEAL un framework generico: cambiando il formato delle self-edit e il task di valutazione, in teoria puoi riutilizzare lo stesso schema per molte forme di adattamento.
Risultati: breakdown delle prestazioni e confronto con le baseline
Per chi cerca una guida completa alle prestazioni, vale la pena entrare un po’ nel dettaglio dei due domini affrontati nel paper: few-shot abstract reasoning e knowledge incorporation.
Nel caso del few-shot learning su ARC, gli autori lavorano su una versione semplificata del benchmark. Selezionano un piccolo sottoinsieme di task ARC per cui è noto che, con la configurazione di test-time training “ottimale” definita in un lavoro precedente, un modello Llama-3.2-1B riesce effettivamente a risolvere il compito. Lo scopo è proprio vedere se SEAL riesce a imparare a scegliere da solo configurazioni vicine a quell’oracolo, partendo da zero.
Usando solo in-context learning (ICL), cioè mostrando al modello qualche esempio input-output e poi chiedendo la soluzione per il test, il tasso di successo è praticamente nullo: lo 0% dei task viene risolto. Aggiungendo test-time training (TTT) con self-edit non addestrate, quindi lasciando il modello libero di generare una configurazione qualunque ma senza avergli insegnato con RL cosa funziona meglio, il tasso di successo sale al 20%. Quando però si introduce la componente completa SEAL, con RL che rinforza le self-edit che portano a una risposta corretta sul test, il tasso arriva a circa 72,5%. L’oracolo, con configurazione progettata a mano da esperti, resta a 100%, ma la distanza si riduce parecchio.
Questo risultato è importante perché mostra due cose. Prima, le self-edit spontanee del modello (senza RL) hanno già un certo valore: passare da 0 a 20% vuol dire che il modello ha un’intuizione grezza su quali augmentations e hyperparameter possano essere utili. Seconda, l’outer loop di reinforcement learning fa la differenza, trasformando quella intuizione in una strategia consistente che funziona nella grande maggioranza dei task di valutazione.
Passando a knowledge incorporation, il confronto è ancora più ricco. Gli autori misurano quanto bene Qwen2.5-7B risponde a domande SQuAD senza avere il passaggio in context, dopo diversi tipi di aggiornamento:
La baseline del modello base, senza alcun aggiornamento, ottiene circa 32,7% di accuratezza.
Fare fine-tuning solo sul passaggio originale, senza nessun synthetic data, porta un miglioramento minimo, fino a circa 33,5%. Questo indica che limitarsi a leggere il testo “così com’è” non è sufficiente perché il modello lo trasformi in knowledge interna utile e richiamabile.
Aggiungere implicazioni generate dal modello base stesso (senza RL) e fare fine-tuning su passaggio più implicazioni porta l’accuratezza a circa 39,7%. Quindi già la semplice idea “riscrivi il passaggio in frasi che condensano la knowledge” torna utile anche senza ottimizzare la qualità di queste frasi.
Usare implicazioni generate da GPT-4.1 invece che dal modello più piccolo fa salire l’accuratezza a circa 46,3%. Qui il salto è notevole, quasi 13 punti percentuali in più rispetto al training solo sul passaggio.
Infine, dopo aver addestrato SEAL con RL in modo che Qwen2.5-7B impari a generare self-edit di qualità sempre migliore, si arriva a circa 47% di accuratezza, superando leggermente anche il setup con dati generati da GPT-4.1, pur usando un modello molto più piccolo come generatore delle implicazioni.
Gli autori estendono poi l’analisi alla modalità continued pretraining (CPT) con più documenti. Qui non si fanno più update separati per ogni passaggio, ma si accumulano i synthetic data di molti passaggi e si fa un unico run di training. In uno scenario con 200 documenti, la classifica resta simile al caso single-passage, ma con alcune sorprese: SEAL ottiene circa 58,2% di accuratezza, mentre la variante con dati GPT-4.1 arriva a circa 59,4%. Le differenze diventano quindi più sottili e l’ordine non è sempre lo stesso, ma SEAL resta competitivo e, soprattutto, mostra che la policy di self-edit imparata nel setting single-passage generalizza bene quando si passa a un regime di training più realistico con molti documenti.
Un’altra parte interessante del paper riguarda le limitazioni e, in particolare, la catastrophic forgetting. Gli autori simulano una situazione di continual learning in cui il modello riceve una lunga sequenza di nuovi passaggi su cui fare knowledge incorporation tramite self-edit successive. Dopo ogni update, misurano non solo quanto funziona sul nuovo passaggio, ma anche quanto ha “dimenticato” i passaggi precedenti. I risultati mostrano che le performance sulle vecchie knowledge calano via via che si accumulano gli update, segno che SEAL, nella sua forma attuale, non risolve il problema del forgetting. Però riesce a reggere vari update prima di crollare completamente, indicando che c’è spazio per combinarlo con tecniche specifiche di continual learning in futuro.
Nel complesso, il breakdown delle prestazioni conferma che le novità di SEAL sono sostanziali: non si tratta solo di un piccolo trick di data augmentation, ma di un framework in cui il modello impara davvero a generare i propri segnali di training ad alto impatto, superando persino dati sintetici prodotti da un LLM più grande in alcuni scenari.
Concetti chiave da capire bene: guida completa ai temi fondamentali del paper
Per sfruttare al massimo la lettura del paper e le sue novità, ci sono alcuni concetti che vale la pena chiarire con calma. Possiamo considerarli come una mini guida completa ai termini che incontrerai più spesso.
Reinforcement learning applicato ai LLM
Il reinforcement learning (RL) in questo contesto non è usato per controllare un robot, ma per insegnare a un LLM a prendere decisioni sequenziali su cosa generare. Nel caso di SEAL, l’azione è l’intera self-edit, cioè il testo che descrive dati e istruzioni per aggiornare i pesi. Lo stato è il contesto del task, per esempio il passaggio SQuAD o gli esempi ARC. Il reward è la performance dell’LLM aggiornato sul task di valutazione.
La differenza rispetto a RLHF classico è che qui non stiamo premiando il modello per la qualità di una risposta finale, ma per la qualità di un intermedio di training: la self-edit. Il modello viene valutato solo dopo aver usato la self-edit per fare fine-tuning. Questo sposta il focus da “impara a dare risposte migliori” a “impara a generare dati di training che ti renderanno migliore”.
Self-edit e synthetic data
La parola self-edit è centrale. Non è un concetto standard, ma un termine introdotto dagli autori per indicare tutto ciò che il modello genera per aggiornare se stesso: può essere training data sintetico, implicazioni, spiegazioni, domande-risposte, o perfino specifiche di hyperparameter e tool da invocare.
Questa idea si innesta su una tendenza già forte nell’NLP moderno: usare synthetic data per potenziare i modelli. Già oggi si generano dataset di istruzioni, di ragionamenti step-by-step, di contro-esempi, creati in modo automatico da LLM più grandi. SEAL rende questo schema più “chiuso” e autonomo: è il modello stesso che genera i dati di cui ha bisogno e, tramite RL, impara quali forme di synthetic data sono più efficaci per imparare davvero, non solo per riempire un dataset.
LoRA e aggiornamenti leggeri dei pesi
Per rendere pratico l’inner loop di training, il paper usa LoRA (Low-Rank Adaptation). LoRA è una tecnica che aggiunge piccoli adattatori a bassa dimensione dentro alcune matrici del modello, in modo da poter aggiornare solo questi parametri extra durante il fine-tuning, without toccare il grosso dei pesi originali.
Questo permette di fare molti round di update leggeri, cosa essenziale per SEAL, dove ogni episodio di RL prevede un nuovo fine-tuning basato sulla self-edit. Senza LoRA, il processo sarebbe troppo pesante in termini di memoria e tempo.
Test-time training e few-shot reasoning su ARC
Il paper sfrutta un’idea recente chiamata test-time training (TTT). Invece di mantenere i pesi fissi al test time, si permette al modello di fare piccoli aggiornamenti usando gli esempi forniti proprio in fase di test. Nel contesto di ARC, questo significa usare i pochi esempi input-output messi a disposizione per un task come mini-dataset di training, magari arricchito con data augmentations, prima di provare a risolvere l’input finale.
ARC stesso è un benchmark particolare: ogni task è una serie di griglie di colori da trasformare e la relazione tra input e output è un pattern astratto che va dedotto. Non ci sono parole, ma solo colori e posizioni. Questo mette alla prova la capacità di abstraction e compositional reasoning del modello, più che il semplice pattern matching linguistico.
Knowledge incorporation e no-context QA
La parte di knowledge incorporation usa SQuAD, un dataset classico di domanda-risposta su passaggi di Wikipedia. Normalmente, per risolvere SQuAD, il modello riceve sia il passaggio sia la domanda in input, e deve trovare la risposta nel passaggio. In SEAL, invece, la sfida è diversa: dopo il learning, il modello deve rispondere alle domande senza avere più il passaggio in context, cioè basandosi solo sulla knowledge incorporata nei pesi durante il training.
Questo rende il setting un ottimo banco di prova per vedere se la self-edit è riuscita davvero a “distillare” il contenuto del passaggio in una forma che il modello può assorbire in modo duraturo.
Catastrophic forgetting e continual learning
Infine, il paper tocca il tema del catastrophic forgetting, molto noto nel continual learning. Quando aggiorni ripetutamente un modello con nuova knowledge, rischi di sovrascrivere quella vecchia. SEAL, in teoria, potrebbe essere una strada verso un LLM che aggiorna i propri pesi in modo continuo. Nella pratica, gli esperimenti mostrano che, senza meccanismi extra (per esempio replay di vecchi dati, regolarizzazioni specifiche o strutture di memoria), il modello tende ancora a dimenticare gradualmente le knowledge passate mentre incorpora quelle nuove.
Capire bene questi concetti rende molto più semplice seguire il paper e collegare le novità di SEAL a tutto il filone di ricerca su RL per LLM, synthetic data, test-time training e continual learning.
Quiz di auto-verifica: domande e risposte su SEAL
Qual è la novità principale di SEAL rispetto al fine-tuning classico?
La novità principale di SEAL è che il modello non viene solo fine-tunato su dati definiti dall’essere umano, ma impara a generare da solo i propri dati di training e le proprie istruzioni di aggiornamento, chiamate self-edit. Poi, tramite reinforcement learning, impara quali self-edit portano a veri miglioramenti di performance. In altre parole, la pipeline di apprendimento diventa auto-diretta: il modello decide come trasformare il contesto che vede in qualcosa di più adatto ai propri pesi, invece di limitarsi a imparare da dati “grezzi” preparati esternamente.
In che cosa consiste una self-edit nel setting di knowledge incorporation?
Nel setting di knowledge incorporation, la self-edit è una serie di frasi che rappresentano implicazioni, deduzioni e riformulazioni del passaggio originale. Il modello, dato un brano SQuAD, genera per esempio frasi che estraggono i fatti chiave, li riorganizzano o li rendono più atomici e facili da apprendere. Queste frasi diventano il mini-dataset sintetico su cui viene fatto il fine-tuning con LoRA. Il reward misura quanto, dopo questo update, il modello riesce a rispondere correttamente alle domande sul passaggio senza averlo più in context.
Come funziona SEAL nel caso del few-shot learning su ARC?
Nel caso di ARC, la self-edit non è un set di frasi, ma un testo strutturato che specifica una configurazione di training. Include scelte su quali data augmentations usare (per esempio rotazioni, flip, cambi di scala delle griglie), quanti epoch di training fare, quale learning rate impostare e su quali token calcolare la loss. Il modello genera questa configurazione a partire dai pochi esempi input-output del task. Poi il sistema esegue test-time training con quella configurazione e valuta se il modello risolve il test. Le self-edit che portano alla soluzione corretta vengono premiate e usate per aggiornare la policy di generazione.
Perché gli autori usano LoRA invece di aggiornare tutti i pesi del modello?
Gli autori usano LoRA perché SEAL richiede moltissimi piccoli update dei pesi, uno per ogni self-edit e per ogni iterazione di RL. Aggiornare tutti i pesi di un LLM sarebbe troppo costoso in termini di tempo e memoria, soprattutto se il processo deve essere ripetuto centinaia o migliaia di volte. LoRA permette di introdurre adattatori a bassa dimensione che catturano le modifiche specifiche di ogni self-edit, mantenendo il modello base intatto e rendendo il ciclo di training molto più efficiente e scalabile.
Che cosa ci dicono i risultati di SEAL su SQuAD rispetto ai dati sintetici generati da GPT-4.1?
I risultati su SQuAD mostrano che SEAL, dopo il training con RL, riesce a generare self-edit che, usate per il fine-tuning di Qwen2.5-7B, portano a un’accuratezza leggermente superiore rispetto ai dati sintetici generati da GPT-4.1. Questo è notevole perché GPT-4.1 è un modello molto più grande e potente del Qwen usato come base. Significa che, se il modello viene addestrato a ottimizzare direttamente l’utilità dei propri dati sintetici tramite RL, può superare anche dati di alta qualità generati da un LLM esterno più grande, almeno in alcuni setting.
SEAL risolve il problema del catastrophic forgetting nei modelli continui?
No, non ancora. Gli esperimenti di continual learning nel paper mostrano che, se si applicano molte self-edit in sequenza per incorporare tanti passaggi diversi, le performance sulle knowledge più vecchie tendono a degradare. SEAL riesce a reggere diversi update senza collassare immediatamente, ma non previene il catastrophic forgetting. Questo indica che, per trasformare SEAL in una vera soluzione di continual learning, sarà necessario integrarlo con tecniche specifiche per la retention, come replay di vecchi dati, vincoli sulle update directions o architetture che separano meglio memoria a lungo termine e aggiornamenti recenti.
Studi correlati e contesto di ricerca: dove si inserisce SEAL
SEAL non nasce nel vuoto, ma si appoggia su diversi filoni di ricerca che vale la pena conoscere per avere una guida completa al contesto.
Un primo filone è quello del synthetic data generation per il training degli LLM. Numerosi lavori hanno mostrato che far generare al modello istruzioni, spiegazioni e QA pairs su larga scala può migliorare sia la qualità generale, sia la capacità di seguire istruzioni e ragionare. SEAL si inserisce in questa linea, ma introduce un twist: invece di usare strategie di generazione fisse o prompt progettati a mano, usa reinforcement learning per ottimizzare direttamente la generazione di synthetic data in base al guadagno di performance dopo il fine-tuning.
Un secondo filone è quello della knowledge updating via weight editing. Alcuni lavori cercano di modificare direttamente i parametri associati a singoli fatti, come se ci fosse un “neurone della knowledge” da ritoccare. Altri, come il deductive closure training, propongono di generare implicazioni e inferenze a partire da un passaggio e fare fine-tuning su queste frasi derivate, un po’ come fa SEAL ma senza RL. Il paper cita sia lavori che usano implicazioni, sia lavori che generano direttamente coppie domanda-risposta come dati di training. SEAL è compatibile con entrambe le scelte: la self-edit può essere una lista di implicazioni, un set di QA pairs o altre forme di ristrutturazione del contenuto, e il RL decide quali funzionano meglio.
Terzo, ci sono i lavori su test-time training e in particolare l’applicazione di TTT all’ARC da parte di Akyürek e colleghi, che mostrano come un LLM possa migliorare drasticamente la propria performance su task di ragionamento astratto facendo gradient updates sul test set stesso, usando data augmentations progettate a mano. SEAL prende quell’idea e la rende automatizzata: invece di avere ricercatori che decidono quali trasformazioni usare, è il modello a imparare quali combinazioni di augmentations e hyperparameter funzionano meglio per ogni nuovo task ARC.
Un quarto filone è quello della meta-learning e delle self-modifying networks. L’idea di base è insegnare a un modello non solo a risolvere compiti, ma a imparare come imparare: a sviluppare una strategia interna di adattamento ai nuovi task. In letteratura ci sono lavori che usano piccoli modelli per generare pesi o modulazioni per un modello più grande, oppure che usano hypernetwork per creare LoRA adapter specifici per task. SEAL condivide lo spirito meta-learning, ma invece di introdurre un modulo nuovo, sfrutta direttamente la capacità generativa dell’LLM: il modello scrive in natural language quello che vuole imparare o come vuole aggiornarsi, e poi quella descrizione viene eseguita come training procedure.
Infine, c’è il grande filone della self-improvement negli LLM, che include metodi come RLAIF, self-rewarding models e varie forme di self-training in cui il modello genera le proprie soluzioni, le valuta o le filtra, e poi si allena su quelle considerate buone. ReST-EM, che SEAL usa come motore RL, è proprio una tecnica di questo tipo: invece di aggiornare la policy direttamente con policy gradient, prima si selezionano i campioni ad alto reward e poi si fa supervised fine-tuning su di essi. SEAL estende questa filosofia alle self-edit, spostando l’attenzione sulle strategie di apprendimento e non solo sulle risposte finali.
In questo quadro, SEAL rappresenta una novità di sintesi: prende elementi da synthetic data, knowledge editing, test-time training, meta-learning e self-training, e li fonde in un unico framework dove il modello scrive e ottimizza, in linguaggio naturale, la propria ricetta di apprendimento. È per questo che il paper è interessante non solo come risultato sperimentale, ma come proposta di paradigma per la prossima generazione di LLM: modelli non più solo “utilizzatori” di dati, ma autori del proprio training.
