In che cosa CLaRa è diverso da un RAG classico con retriever + LLM?

In un RAG classico, il retriever lavora su embedding e seleziona documenti testuali, che poi vengono inseriti come testo nel prompt del LLM, con parametri separati e nessun gradiente diretto dal generatore al retriever. CLaRa invece rappresenta sia documenti sia query come memory tokens nello stesso spazio continuo, e usa un top-k differenziabile per far sì che la loss di generazione aggiorni direttamente il query reasoner, unificando retrieval e generation in un solo framework.

Perché serve una fase di Salient Compressor Pretraining invece di addestrare tutto end-to-end da zero?

Addestrare da zero un compressore e un retriever su documenti lunghi sarebbe costoso e instabile, specialmente senza molte etichette di rilevanza per il retrieval. SCP usa dati sintetici ben strutturati (QA e paraphrasi) per pre-allenare un compressore che sa già estrarre le parti salienti e preservare la semantica, così la fase CLaRa può concentrarsi sull'allineamento con il generatore e sul reasoning.

Come fa CLaRa a migliorare l'efficienza senza perdere troppa qualità?

CLaRa riduce drasticamente la lunghezza del contesto che il LLM deve leggere, sostituendo i documenti originali con pochi memory tokens continui. Grazie al pretraining mirato e alla joint optimization, questi memory tokens mantengono quasi tutta l'informazione di reasoning utile, tanto che i risultati mostrano prestazioni comparabili o superiori ai sistemi che leggono il testo integrale.

Perché il retriever "debole" di CLaRa può superare retriever supervisionati?

Il retriever di CLaRa è addestrato direttamente rispetto all'obiettivo finale di massimizzare la probabilità della risposta corretta, non a imitare label di rilevanza locali per documento. Con la condivisione dello spazio continuo col generatore e il flusso di gradiente via top-k differenziabile, il query reasoner impara quali documenti migliorano davvero il reasoning, superando perfino modelli supervisionati come BGE-Reranker e Sup-Instruct in Recall@5.

Che ruolo ha l'instruction tuning nel framework CLaRa?

Instruction tuning serve per adattare compressore e generatore a dataset QA specifici, creando un modello che comprende meglio prompt e istruzioni del task. Esperimenti mostrano che inizializzare CLaRa da un compressore instruction-tuned migliora in particolare le performance nel setting Normal, soprattutto su NQ e HotpotQA, mentre nel setting Oracle il vantaggio si riduce perché il retrieval è già molto affidabile.

Deep Learning

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

I Memory tokens risolveranno il RAG?

28 novembre 2025

Oggi parliamo di CLaRa, un framework per Retrieval-Augmented Generation (RAG) che comprime i documenti in vettori continui e usa un'unica rappresentazione condivisa sia per retrieval sia per generation. L'idea chiave è sostituire il classico schema "retriever su embedding + LLM che legge tutto il testo" con memory tokens continui che rappresentano i documenti e che vengono usati direttamente dal modello per ragionare e generare risposte.

CLaRa risolve due problemi tipici dei sistemi RAG: l'ottimizzazione separata di retrieval e generation e il costo enorme dovuto a contesti lunghi. Con questo approccio, i documenti vengono compressi in embedding densi, riusabili e differenziabili, permettendo di fare joint training di retriever e generatore usando solo la loss di next-token prediction.

I risultati sperimentali mostrano che CLaRa supera diversi metodi di soft compression e hard compression allo stato dell'arte su benchmark QA come NQ, HotpotQA, MuSiQue e 2WikiMultihopQA. In molti setting, il sistema con documenti compressi raggiunge o supera modelli RAG che lavorano con il testo integrale, mantenendo fino a 16-32x di compressione del contesto. In più, il retriever "debole" addestrato solo via generation loss arriva a superare anche retriever supervisionati con label di rilevanza.

Link utili

Github repo: disponibile come repository pubblico Apple su GitHub (apple/ml-clara).
arXiv:2511.18659 CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning: https://arxiv.org/abs/2511.18659.
Dataset: il paper descrive pipeline di dati sintetici basata su Wikipedia-2021, ma non annuncia un dataset standalone con nome dedicato.

Approcci, tecniche e training recipe (come funziona CLaRa, guida completa)

Il framework è diviso in due grandi fasi: SCP (Salient Compressor Pretraining) e joint training CLaRa per retrieval e generation su rappresentazioni condivise.

SCP: Salient Compressor Pretraining

Nella fase SCP, gli autori vogliono addestrare un compressore di documenti che produca embedding continui ricchi semanticamente, adatti sia al retrieval sia alla generazione. Per farlo, costruiscono un grande dataset sintetico a partire da circa 2 milioni di documenti Wikipedia-2021, usando un LLM locale: Qwen-32B.

La pipeline di dati sintetici si occupa di tre punti:

Genera Simple QA, domande semplici che catturano un singolo fatto, per spingere il modello a trattenere dettagli atomici importanti.
Genera Complex QA, domande che combinano più fatti, per allenare il modello a rappresentare relazioni e ragionamento multi-fatto.
Genera parafrasi dei documenti, che cambiano la forma superficiale mantenendo il significato, così il compressore impara a codificare la semantica invece che la forma del testo.

Tutte queste uscite vengono verificate automaticamente dallo stesso LLM per copertura e coerenza, rigenerando QA mancanti fino a coprire bene il contenuto; i campioni non sufficienti vengono scartati. Su questi dati, un LLM base con LoRA adapters viene addestrato come compressore: i documenti vengono arricchiti con memory tokens, e il modello impara a usare solo questi token compressi per rispondere alle QA o rigenerare parafrasi.

Durante SCP:

Un adapter LoRA funge da compressor, che produce i memory tokens.
Un altro adapter funge da generator, che legge solo i memory tokens e genera risposte o testi.
Viene aggiunto anche un termine che allinea lo spazio dei memory tokens con quello delle rappresentazioni dei token originali, per mantenere coerenza semantica.

In alcuni esperimenti, il compressore viene poi instruction-tuned con dati QA downstream, per adattarlo meglio al compito di question answering e allinearlo come answer generator.

Joint training CLaRa: retrieval + generation nello stesso spazio

Una volta ottenuto un buon compressore, gli autori congelano questo modulo e lo usano per codificare offline l'intero corpus in memory tokens. CLaRa introduce poi un nuovo modulo chiamato query reasoner, un LoRA adapter che prende una query in input e produce embedding nello stesso spazio continuo dei documenti compressi.

Il flusso è:

I documenti sono compressi una volta in memory tokens dal compressore congelato.
La query passa nel query reasoner, che genera embedding continui concepiti per "prefigurare" il contenuto dei documenti utili.
Il sistema calcola la similarità (ad esempio coseno) tra la query embedding e ogni documento compresso e seleziona i top-k documenti.
I memory tokens dei documenti selezionati, insieme alla query, vanno al generator che produce la risposta finale.

La parte elegante è il differentiable top-k selection: gli autori usano uno schema tipo Straight-Through estimator per avere una selezione discreta in forward ma gradienti continui in backward. Così, la loss di next-token prediction del generatore aggiorna non solo il generator adapter ma anche il query reasoner, rendendo il retriever ottimizzato end-to-end rispetto alla qualità della risposta.

In pratica, il retriever non viene addestrato con label "documento rilevante o meno", ma solo con il segnale "questa scelta di documenti ha portato una buona generazione". Questo rende il sistema label-free per il retrieval, adattandolo automaticamente al task e al modello, e semplificando molto il training pipeline.

Il framework viene testato con backbone come Mistral-7B e Phi-4-mini, usando i memory tokens per comprimere a diversi rapporti (4x, 16x, 32x, fino a 128x).

Analisi dei risultati (come funziona CLaRa nei benchmark)

Gli esperimenti coprono due blocchi principali: qualità del compressore e performance end-to-end QA con CLaRa.

Performance del compressore

Il compressore SCP viene confrontato con vari metodi di compressione, tra cui AutoCompressor, XRAG, COCOM, PCC, LLMLingua-2 e PISCO, in condizioni Normal e Oracle. I dataset di valutazione includono NQ, HotpotQA, MuSiQue e 2WikiMultihopQA, misurando la qualità delle risposte del LLM condizionato sui documenti compressi.

Risultati chiave:

SCP supera sistematicamente tutti i baseline, sia in setting Normal sia Oracle, a diversi gradi di compressione.
Rispetto a PISCO, che era finora un forte metodo di soft compression, SCP ottiene miglioramenti medi di circa 1 punto percentuale in Normal e oltre 5 punti in Oracle.
Sorprendentemente, con Mistral-7B e Phi-4-mini, usare SCP con compressione può superare anche il RAG che usa il testo intero con BGE retrieval, con guadagni medi di alcuni punti percentuali.

Questo suggerisce che una buona soft compression può filtrare rumore, concentrando il contesto sull'informazione veramente utile al reasoning, invece di fornire al modello lunghi passaggi ridondanti.

Risultati end-to-end QA di CLaRa

Per la parte completa RAG, CLaRa viene confrontato con metodi come GenGround, In-Context RAG, ReComp, DPA-RAG, Self-RAG, RetRobust, ChatQA, DDR-RAG e DRO. Vengono testate diverse compressioni (4x, 16x, 32x) e due tipi di inizializzazione per il query reasoner: da SCP pretraining o da instruction tuning.

Osservazioni principali:

Nel setting Normal, con compressione 16x e Mistral-7B, CLaRa raggiunge o supera DRO, che lavora su testo completo, su media dei benchmark.
Nel setting Oracle, dove la pool di documenti contiene sempre il positivo, CLaRa supera il 75% di F1 su NQ e HotpotQA, mostrando che il modello sfrutta molto bene retrieval accurato.
L'inizializzazione da instruction tuning aiuta soprattutto nel setting Normal, migliorando NQ e HotpotQA rispetto al solo pretraining.

Nel complesso, CLaRa mantiene prestazioni competitive o migliori rispetto a sistemi RAG all'avanguardia, pur riducendo drasticamente la lunghezza del contesto letto dal LLM.

Retrieval e reranking

Gli autori valutano anche il puro retrieval in termini di Recall@k in un setting Oracle dove i documenti positivi sono sempre nella candidate set. Vengono confrontati un retriever completamente supervisionato (Sup-Instruct) e vari reranker forti come BGE-Reranker.

Risultati notevoli:

CLaRa, con query reasoner inizializzato da pretraining, supera BGE-Reranker su HotpotQA con compressione 4x, arrivando a Recall@5 attorno al 96% rispetto a meno del 90% di BGE-Reranker.
Sorprendentemente, CLaRa supera anche Sup-Instruct, pur non usando etichette di rilevanza, ma solo la loss di generazione.

Questo indica che il retriever, quando condividono lo stesso spazio continuo con il generatore, può imparare segnali di rilevanza più profondi rispetto a un retriever supervisionato classico.

Concetti chiave da capire per leggere il paper

Per seguire bene il paper, è utile avere chiari alcuni concetti fondamentali del mondo RAG e delle continuous representations.

Retrieval-Augmented Generation e compressione continua

RAG combina un retriever che trova documenti da una knowledge base con un LLM che genera la risposta usando questi documenti come contesto. In molti sistemi, il retriever lavora in embedding space, ma il generatore legge ancora testo grezzo, creando una frattura tra rappresentazioni e impedendo un vero joint training.

La soft compression a memory tokens cerca di rappresentare un intero documento con pochi vettori continui, che il LLM può usare direttamente come input. In CLaRa, questi memory tokens sono il nucleo comune per retrieval, reranking e generation, riducendo costo e permettendo gradiente end-to-end.

Query reasoner e reasoning latente continuo

Il query reasoner non è solo un encoder di query classico, ma un modulo che "pensa in anticipo" a quali concetti serviranno per rispondere. Gli autori mostrano, tramite logit lens, che le embedding della query spesso decodificano token che compaiono solo nei documenti positivi, non nella query originale.

Questo significa che il modello apprende una rappresentazione latente che arricchisce la query con concetti impliciti, migliorando il match con i documenti giusti. Per esempio, per una domanda sul nipote di un certo giocatore, la query embedding può includere riferimenti impliciti come squadre o leghe che aiutano il retrieval.

Differentiable top-k e Straight-Through

Il grosso problema del retrieval end-to-end è che scegliere i top-k documenti è un'operazione discreta, quindi priva di gradienti. CLaRa usa una variante di Straight-Through estimator: in forward prende una selezione discreta, ma in backward propaga gradienti come se avesse usato una versione soft basata su softmax.

In pratica:

Il modello calcola punteggi di similarità query-document.
Usa una distribuzione soft per avere gradienti, ma nel forward mantiene un comportamento "hard" top-k.
Questo permette di aggiornare il query reasoner sulla base di quanto ogni documento abbia aiutato la generazione.

Pretraining dei dati con QA e paraphrasing

Un altro concetto chiave è perché la pipeline QA + paraphrasi aiuta tanto la compressione. Le Simple QA costringono il modello a memorizzare fatti atomici, mentre le Complex QA lo spingono a codificare relazioni e multi-hop reasoning.

Le paraphrasi, invece, mostrano che la stessa informazione può essere espressa in modi diversi, e il compressore deve catturare il significato invariato, non la forma superficiale. Gli ablation study mostrano che combinare SimpleQA, ComplexQA e paraphrasi dà le migliori performance sia per Mistral-7B sia per Phi-4-mini.

Sezione quiz: domande e risposte

Studi correlati da conoscere (guida ad approcci affini)

Il paper colloca CLaRa in un panorama ricco di metodi per compressione continua e ottimizzazione end-to-end di RAG, molti dei quali sono usati come baseline.

PISCO: introduce memory tokens variabili per rappresentare documenti e allinea compressione e generazione, ma non unifica retrieval e generation nel modo fortemente end-to-end di CLaRa. PISCO è un forte baseline di soft compression, che CLaRa supera grazie a pretraining mirato e allineamento più stretto con il compito di QA.
XRAG, COCOM, PCC, LLMLingua-2, AutoCompressor: sono diversi metodi per ridurre il contesto, spesso basati su proiezioni in singoli vettori o selezione di parti di testo, ma tendono a perdere semantica fine-grained utile per RAG complessi. Gli esperimenti mostrano che il compressore SCP supera questi approcci su più compressioni, indicando che memory tokens multipli e pretraining su QA/parafrasi preservano meglio l'informazione.
DRO, DDR-RAG, ReComp, DPA-RAG: sono sistemi RAG che puntano a ottimizzare retrieval e generation con varie tecniche, incluse reinforcement learning e differenziable reranking su testo. A differenza di CLaRa, questi metodi operano ancora su testo grezzo per la generazione, con contesti lunghi e niente spazio continuo condiviso, mentre CLaRa mostra che si può essere competitivi comprimendo fortemente i documenti.
Self-RAG, RetRobust, ChatQA: sono metodi focalizzati su robustezza e qualità del reasoning dei LLM con RAG, ma senza una compressione continua condivisa tra retrieval e generation. CLaRa viene confrontato con questi modelli e ottiene risultati comparabili o migliori, pur con un budget di contesto molto più contenuto.

In sintesi, CLaRa può essere vista come una guida completa a come ripensare RAG in chiave di continuous latent reasoning, unificando compressione, retrieval e generation in un unico spazio continuo ottimizzato end-to-end.