Continuous Thought Machines: una nuova architettura per il “pensiero continuo” nelle neural network

26 novembre 2025

Che cos'è Continuous Thought Machines e perché è interessante

Il paper Continuous Thought Machines (CTM), di Darlow, Regan, Risi, Seely e Jones, propone una nuova famiglia di neural network che mette al centro il tempo e le neural dynamics come vera e propria rappresentazione interna, invece di trattarle come un dettaglio implementativo. L'idea è far sì che il modello "pensi" per una sequenza di passi interni prima di dare una risposta, usando la synchronization fra i neuroni come spazio latente principale per percepire il mondo e prendere decisioni, in modo ispirato ma non identico al cervello biologico.

A differenza di RNN classiche o Transformer, che legano strettamente il processamento al tempo della sequenza di input, il CTM introduce una internal thought dimension: una timeline interna, autonoma, su cui le neural dynamics possono evolvere anche quando il dato è statico, come un'immagine o un labirinto 2D. Gli autori mostrano che questa architettura può affrontare task molto diversi (ImageNet, CIFAR-10, maze navigation, parity, Q&A su MNIST, sorting e reinforcement learning continuo) con un'unica struttura di base, modificando solo i moduli di input/output.

Il focus del lavoro non è battere lo state-of-the-art su ImageNet, ma dimostrare nuove capacità di reasoning, adaptive compute e interpretabilità emergenti dalle neural dynamics e dalla synchronization. Il codice ufficiale, con modelli e script di training, è disponibile su GitHub: https://github.com/SakanaAI/continuous-thought-machines.

Architettura CTM, tecniche e training recipe

Visione ad alto livello

Il Continuous Thought Machine è una neural network con tre ingredienti chiave: una internal thought dimension fatta di "internal ticks", neuron-level models privati per ogni neurone e una neural synchronization usata direttamente come rappresentazione per osservare i dati ed emettere predizioni. A ogni internal tick, il modello aggiorna il proprio stato interno tramite una dinamica ricorrente, poi misura come le attività dei neuroni si sincronizzano nel tempo e usa questa informazione per decidere cosa guardare nei dati e quale output produrre.

La pipeline, semplificando, è:

Un synapse model ricorrente (tipo U-Net MLP) aggiorna le pre-attivazioni dei neuroni in funzione dello stato interno precedente e dell'eventuale input esterno.
Ogni neurone passa la propria "history" di pre-attivazioni a un neuron-level model privato (un piccolo MLP parametrizzato solo da quel neurone), che genera le post-attivazioni.
Dalle history delle post-attivazioni di tutti i neuroni si costruisce una synchronization matrix (basata su prodotti scalari nel tempo), che diventa lo spazio latente principale.
Attraverso proiezioni lineari, parti di questa rappresentazione di synchronization vengono usate come attention queries verso l'input e come vettori per produrre i logits di output.

In pratica, anziché usare il classico vettore di attivazioni di uno strato come rappresentazione, il CTM usa la sincronizzazione temporale fra neuroni come feature di alto livello.

Internal thought dimension vs tempo del dato

Nei modelli sequenziali classici (RNN, LSTM, Transformer), il numero di passi di computazione è legato alla lunghezza della sequenza di input. Nel CTM, invece, gli internal ticks sono una timeline interna: il modello può iterare molte volte anche su un singolo frame di un'immagine o su una configurazione fissa di un maze, raffinando progressivamente la rappresentazione.

Questo disaccoppiamento permette:

Di usare la stessa architettura per dati statici e sequenziali.
Di dedicare più passi di pensiero ai casi difficili e meno a quelli facili, abilità che gli autori chiamano adaptive compute.

Neuron-level models

Uno degli aspetti più radicali del CTM è che ogni neurone ha il proprio neuron-level model, un piccolo MLP che prende in input la history recente delle sue pre-attivazioni e produce la post-attivazione. Questo sostituisce la classica activation function statica (ReLU, GELU, ecc.) con una piccola neural network privata per neurone, in grado di implementare dinamiche nel tempo complesse e non lineari.

Questa scelta:

Aumenta enormemente la capacità espressiva delle neural dynamics.
Fa sì che neuroni diversi imparino ruoli dinamici distinti, come mostrato dalle analisi di diversità delle traiettorie neurali al variare della larghezza del modello.

Neural synchronization come rappresentazione

Per sfruttare davvero il tempo, il CTM calcola a ogni internal tick una neural synchronization matrix, basata sulla similarità fra le history temporali delle post-attivazioni dei neuroni. Questa matrice è grande (coppie di neuroni), ma in pratica si campiona un sottoinsieme di coppie per costruire due rappresentazioni di synchronization: una per l'output e una per le osservazioni (es. attention queries).

Queste rappresentazioni:

Crescono in dimensione con il numero di neuroni, ma non richiedono un aumento proporzionale dei parametri nei layer di proiezione.
Consentono al modello di usare pattern di sincronizzazione come vettori latenti ricchi, analoghi - in spirito - alle oscillazioni e wave patterns osservati nei cervelli biologici.

Training recipe e dataset

Il CTM viene addestrato con loss functions standard (perlopiù cross-entropy) applicate alle predizioni prodotte a ciascun internal tick, su una varietà di dataset: ImageNet e CIFAR-10 per image classification, maze 2D, un compito di parity su vettori binari, Q&A su MNIST, sorting di numeri reali e task di reinforcement learning continuo.

Due elementi di training particolarmente importanti sono:

Dynamic loss aggregation: invece di usare solo l'ultimo tick, gli autori aggregano la loss di due ticks per esempio, scegliendo quelli con loss minima e massima certainty (bassa entropia predittiva).
Adaptive internal ticks: studiando come cambia l'accuratezza al variare del numero di ticks, mostrano che oltre un certo numero i guadagni marginali calano, suggerendo una forma naturale di adaptive compute.

Per i task con immagini, il CTM usa un feature extractor esistente (es. ResNet) per ottenere feature spaziali che poi vengono interrogate tramite cross attention guidata dalla synchronization, mentre per il reinforcement learning si combina il CTM con proximal policy optimization (PPO).

Risultati sperimentali e cosa ci dicono

ImageNet e CIFAR-10: performance e calibrazione

Su ImageNet, il CTM raggiunge performance competitive rispetto a baseline ragionevoli, ma non mira a battere lo state-of-the-art: lo scopo è mostrare che la stessa architettura, con neural dynamics complesse, può funzionare bene su un benchmark maturo. Gli esperimenti rivelano che il modello guadagna accuratezza con più internal ticks, ma oltre un certo punto i miglioramenti sono piccoli, offrendo un chiaro esempio quantitativo di adaptive compute.

Su CIFAR-10, gli autori confrontano il CTM con un modello feed-forward, un LSTM con internal ticks e dati di performance umana, analizzando in particolare la calibration delle probabilità predette. Il CTM risulta più calibrato sia rispetto al feed-forward sia rispetto all'LSTM, e persino rispetto alle stime di calibrazione aggregate sui label umani, pur usando un backbone volutamente limitato per enfatizzare le differenze architetturali.

Uno dei risultati più impressionanti riguarda la maze navigation: un CTM addestrato a generare la sequenza di mosse (Left, Right, Up, Down, Wait) che porta dall'entrata all'uscita di labirinti 2D di dimensione 39x39. Gli autori rimuovono volutamente qualunque positional embedding, obbligando il modello a costruire un internal world model del labirinto, sfruttando la propria internal thought dimension per pianificare un percorso.

I risultati mostrano che:

L'attenzione del CTM segue traiettorie interpretabili che ricalcano il path di soluzione attraverso il maze.
Il modello generalizza a labirinti molto più grandi (es. 99x99) e a percorsi fino a circa 6 volte più lunghi rispetto a quelli visti in training.

Questa generalizzazione indica che il CTM non sta solo memorizzando pattern, ma ha imparato una procedura di reasoning spaziale che scala a configurazioni più complesse.

Parity, Q&A su MNIST e sorting

Nel task di parity cumulativa su vettori binari di lunghezza 64, il CTM con oltre 75 internal ticks riesce a risolvere il compito fino ad accuratezza vicina al 100%, mentre LSTM di pari numero di parametri faticano appena si prova a sfruttare molti passi interni. Le visualizzazioni mostrano che alcuni attention heads leggono i dati all'indietro o in avanti implementando algoritmi diversi ma ugualmente corretti, suggerendo capacità di planning e strategia interna.

Nel task di Q&A su MNIST, il modello vede una sequenza di cifre seguita da query su indici e operatori modulari, e deve restituire il risultato di operazioni sui digit memorizzati, spesso ben oltre la finestra di history usata dai neuron-level models. Il CTM, aumentando il numero di internal ticks, supera il 95% di accuratezza nei casi più difficili, mostrando di saper organizzare le neural dynamics e la synchronization per memorizzare e recuperare informazioni molto lontane nel tempo.

Infine, in un task di sorting di 30 numeri reali, il CTM riesce a ordinare correttamente la sequenza in circa l'80% dei casi, dimostrando che la stessa architettura può essere adattata a compiti algoritmici sequenziali senza modifiche strutturali profonde. Task di reinforcement learning continuo mostrano che il CTM consegue performance paragonabili a un LSTM, confermando la versatilità del paradigma anche in ambienti con interazioni continue.

Concetti chiave da capire prima di leggere il paper

Neural dynamics e internal thought dimension

Il cuore concettuale del CTM è la scelta di considerare le neural dynamics non come un effetto collaterale, ma come meccanismo computazionale primario. Invece di aggiornare lo stato neurale solo quando arriva un nuovo token o frame, il CTM evolve il proprio stato lungo una internal thought dimension, che può essere più lunga o più corta a seconda della complessità del problema.

Per le vostre letture, è utile pensare agli internal ticks come a "passi di pensiero" che il modello può spendere su un singolo input: per un'immagine facile, bastano pochi passi; per un maze complesso o per parity richiedente un ragionamento globale, il modello userà molti più ticks. Questa prospettiva avvicina il CTM a una macchina di pensiero continuo, dove il tempo interno è una risorsa esplicita da allocare.

Neuron-level models: oltre le activation function

Le activation function classiche (ReLU, GELU, ecc.) comprimono la dinamica di un neurone in una funzione statica e identica per tutti i neuroni di uno strato. Nel CTM, ogni neurone ha una mini-network privata, il neuron-level model, che riguarda solo la propria storia di attivazioni recenti e può implementare dinamiche non lineari sofisticate.

Questo porta a due implicazioni cruciali:

La rete non è più "statica" al livello del singolo neurone: ogni neurone può diventare un piccolo sistema dinamico con memoria.
L'eterogeneità fra neuroni emerge naturalmente: studiando la similarity fra le traiettorie neurali, gli autori mostrano che neuroni diversi si specializzano in comportamenti diversi e che questa diversità cresce con la larghezza del modello.

Quando leggete il paper, tenete a mente che molte figure sulle neural dynamics servono proprio a mostrare questa ricchezza di comportamenti neuron-level, che non avrebbe senso in una rete con activation function fissa.

Neural synchronization come spazio latente

Il concetto di neural synchronization è forse l'aspetto più originale del CTM: invece di usare direttamente i vettori di attivazioni, il modello misura quanto le history dei neuroni sono sincronizzate nel tempo. Questa synchronization matrix cattura pattern collettivi di attività neurale, un po' come le oscillazioni coordinate osservate in registrazioni elettrofisiologiche dal cervello.

Nel CTM, la synchronization non è solo un oggetto di analisi, ma la rappresentazione operativa usata per:

Costruire le attention queries che dicono al modello dove guardare nel dato.
Generare direttamente le predizioni attraverso proiezioni lineari.

Per lo studio del paper, conviene leggere con attenzione le sezioni in cui gli autori mostrano come la synchronization cambi nel tempo e come correli con fasi diverse del reasoning (es. esplorazione del maze, accumulo di evidenza in parity).

Adaptive compute e certainty

Un altro tema ricorrente è l'adaptive compute: l'idea che il modello possa modulare quanti internal ticks usa a seconda della difficoltà del singolo input. Per abilitare questo comportamento, gli autori definiscono una misura di certainty basata sull'entropia delle predizioni a ogni tick e usano sia la loss sia la certainty per aggregare il segnale di training nel tempo.

In pratica:

Il modello riceve pressione a performare bene non solo all'ultimo tick, ma anche in corrispondenza dei momenti in cui è più sicuro.
Analizzando la distribuzione del "tick di massima certainty" su molti esempi, si vede che il CTM usa un range ampio di passi a seconda del caso, invece di fissarsi sempre sull'ultimo.

Quando interpretate i grafici sugli internal ticks, leggeteli come analoghi di "tempo di riflessione" per il modello.

Interpretabilità del reasoning

Una delle promesse chiave del CTM è una maggiore interpretabilità del reasoning, soprattutto nei task algoritmici e nei maze. Visualizzando attention, synchronization e attivazioni neurali nel tempo, gli autori mostrano pattern interpretabili: ad esempio, heads che percorrono il maze seguendo il path corretto, o neuroni che monitorano solo posizioni con parity negativa.

Questa interpretabilità non viene forzata con tecniche post-hoc, ma è una conseguenza naturale del fatto che il modello lavora con neural dynamics strutturate e con una rappresentazione di synchronization fortemente geometrica. Per chi studia Deep Learning, CTM è un caso di studio utile su come progettare architetture dove il "come" la rete pensa sia osservabile quasi in tempo reale.

Quiz e studi correlati

Quiz di comprensione (con risposte)

Q: Qual è la principale motivazione dietro Continuous Thought Machines rispetto a RNN e Transformer tradizionali?
A: Gli autori ritengono che modelli attuali, pur molto performanti, non sfruttino in modo esplicito il tempo come risorsa computazionale centrale, a differenza dei cervelli biologici che mostrano neural dynamics ricche e strutturate; CTM nasce per esplorare cosa succede se si rende il tempo interno e la synchronization fra neuroni il fulcro del reasoning, invece di usare solo attivazioni statiche.

Q: Che cosa sono gli internal ticks nella CTM?
A: Gli internal ticks sono passi di una timeline interna di pensiero, separata dal tempo degli input: a ogni tick il modello aggiorna lo stato neurale, calcola la synchronization e può osservare di nuovo i dati o aggiornare la predizione, anche se l'input non è cambiato. A: Questo permette al CTM di spendere più o meno computazione per singolo esempio, componendo un vero e proprio "ragionamento iterativo" interno.

Q: In che cosa i neuron-level models differiscono dalle comuni activation function?
A: Una activation function classica è una mappa fissa e condivisa che prende un singolo valore scalare e lo trasforma punto-per-punto, mentre un neuron-level model è un piccolo MLP privato per neurone che prende come input una finestra temporale di pre-attivazioni e genera la post-attivazione. A: Questo rende ogni neurone un piccolo sistema dinamico con memoria, aumentando la diversità e la complessità delle neural dynamics che l'architettura può rappresentare.

Q: Perché la neural synchronization è importante nel CTM?
A: La neural synchronization misura quanto le history temporali delle post-attivazioni di coppie di neuroni sono correlate, creando una matrice che rappresenta pattern collettivi di attività nel tempo. A: Nel CTM, porzioni di questa matrice vengono proiettate per generare attention queries e logits di output, quindi la synchronization non è solo un descrittore, ma lo spazio latente primario con cui la rete osserva il mondo e agisce.

Q: Che cosa si intende per adaptive compute nel contesto del CTM?
A: Adaptive compute significa che il modello può variare il numero effettivo di internal ticks necessari per "risolvere" un input, usando meno passi per esempi facili e più passi per problemi difficili. A: Analisi su ImageNet e altri task mostrano che dopo un certo numero di ticks i guadagni di accuratezza diventano marginali, suggerendo che, in principio, il modello potrebbe fermarsi prima mantenendo quasi la stessa performance.

Q: Perché gli esperimenti sui maze sono particolarmente convincenti come evidenza di reasoning?
A: Perché il CTM viene addestrato a prevedere direttamente la sequenza di mosse in un labirinto 2D senza positional embedding, quindi deve costruire un internal world model dello spazio del maze per navigarlo. A: Le traiettorie di attention seguono strade interpretabili lungo il percorso di soluzione e il modello generalizza a maze molto più grandi e con path più lunghi di quelli visti in training, comportandosi in modo simile a un agente che pianifica.

Q: Come si comporta il CTM rispetto a un LSTM sul task di parity cumulativa?
A: Con abbastanza internal ticks (oltre ~75), il CTM riesce a imparare la parity cumulativa su vettori binari di lunghezza 64 con accuratezza molto alta, fino a performance perfette in alcune run. A: L'LSTM, invece, tende a diventare instabile quando si cerca di sfruttare molti passi interni, indicando che non è altrettanto adatto a "distendere" un vero thought process lungo una dimensione temporale interna.

Q: In che senso il CTM mostra una buona calibrazione delle predizioni?
A: Negli esperimenti su CIFAR-10 e ImageNet, gli autori misurano la calibrazione confrontando la probabilità media predetta per la classe scelta con la frequenza empirica di correttezza, e trovano che il CTM è più vicino alla curva ideale rispetto alle baseline. A: In alcuni setup, il CTM risulta meglio calibrato persino delle stime basate su annotatori umani aggregati, pur non essendo stato progettato specificamente per la calibrazione.

Studi correlati e direzioni future

Un primo seguito diretto è il progetto Self-Modifying Continuous Thought Machines (smCTM), che esplora l'idea che il CTM possa non solo usare neural dynamics ricche, ma anche modificare parti dei propri parametri nel corso dell'evoluzione interna, aprendo la porta a forme di meta-learning e auto-adattamento strutturale. Il repository smCTM estende il codice CTM ufficiale e rappresenta un passo verso modelli che uniscono pensiero continuo e capacità di auto-modifica, mantenendo la centralità della synchronization.

Un altro filone correlato è la ricerca su long chain-of-thought reasoning nei grandi language model, dove lavori come Coconut (Chain of Continuous Thought) e Implicit Thought Transformer (ITT) cercano di estendere il reasoning in spazio latente, per esempio aggiungendo "thinking tokens" o blocchi ricorrenti di reasoning che possono essere riutilizzati più volte. Questi approcci, raccolti in survey recenti sui metodi Long CoT, affrontano il problema principalmente lato procedura di inferenza e training, mentre CTM propone una soluzione architetturale che incorpora il tempo e la synchronization come elementi di base.

Esistono anche progetti community come il repository ctm-concept, che implementano simulazioni didattiche e visualizzazioni interattive delle neural dynamics e della synchronization dei CTM, pensati proprio per chi vuole studiare attentamente il comportamento interno di questi modelli. Infine, articoli divulgativi e video deep-dive mettono in evidenza come CTM si inserisca nella tendenza più ampia di riavvicinare Deep Learning e neuroscienze, cercando architetture che non solo funzionino bene, ma che mostrino anche pattern dinamici plausibili rispetto alla biologia.