DeepSeek-V3.2 novità: cosa cambia nel nuovo modello di reasoning e agentic AI open source

2 dicembre 2025

Che cos'è DeepSeek-V3.2, perché è interessante e panoramica dei risultati

DeepSeek-V3.2 è un Large Language Model open source progettato con un obiettivo molto chiaro: ridurre il divario di prestazioni tra modelli aperti e modelli chiusi di fascia altissima come GPT-5 e Gemini-3.0-Pro, soprattutto in compiti di reasoning complesso e agentic AI (cioè modelli che usano tool e agiscono in ambienti interattivi).

Il paper descrive tre innovazioni principali. La prima è DeepSeek Sparse Attention (DSA), un nuovo meccanismo di attention che rende molto più efficiente il lavoro del modello su contesti lunghi, riducendo drasticamente il costo di calcolo pur mantenendo la qualità delle risposte.

La seconda è una reinforcement learning framework su larga scala, costruita per sfruttare una quantità di compute nel post-training molto più alta di quella tipica dei modelli open source. Gli autori spiegano che il budget di RL supera il dieci per cento del costo di pre-training, un ordine di grandezza che finora si vedeva quasi solo nei modelli chiusi.

La terza innovazione è una agentic task synthesis pipeline: una pipeline automatizzata che genera migliaia di ambienti e decine di migliaia di prompt complessi in cui il modello deve usare tool reali come web search, coding tool o notebook, imparando così a "pensare mentre agisce".

Dal punto di vista dei risultati, DeepSeek-V3.2 mostra prestazioni comparabili a GPT-5 su benchmark di reasoning matematico, coding competitivo e domande complesse. La variante ad alto compute, DeepSeek-V3.2-Speciale, arriva a superare GPT-5 e a raggiungere o superare Gemini-3.0-Pro su diversi benchmark, con performance di livello medaglia d'oro in competizioni come International Mathematical Olympiad (IMO), China Mathematical Olympiad (CMO), International Olympiad in Informatics (IOI) e ICPC World Finals.

Un aspetto cruciale è che il modello e il relativo inference stack sono rilasciati in open source su Hugging Face e GitHub, rendendo DeepSeek-V3.2 uno dei pochi modelli "reasoning-first" di fascia altissima che chiunque può scaricare e integrare in sistemi di produzione o ricerca.

Per chi vuole una guida completa a DeepSeek-V3.2, il paper è interessante almeno per tre motivi. Mostra una ricetta concreta per scalare Reinforcement Learning su LLM open source, propone una soluzione pratica al problema dei contesti lunghi con DSA e offre una visione molto concreta di cosa significa addestrare un modello per essere un universal agent, capace di usare tool e ragionare a lungo raggio.

Alla fine della sezione teorica, il messaggio è chiaro. Se ti stai chiedendo "guida a DeepSeek-V3.2" o "come funziona DeepSeek-V3.2" per usarlo in un tuo progetto, questo paper è il documento di riferimento per capire la filosofia di design e le scelte di training dietro il modello.

Link utili (GitHub, paper, dataset) Repository GitHub DeepSeek-V3.2-Exp, Tech report PDF su Hugging Face, dataset di training dedicato non disponibile pubblicamente al momento (gli autori non rilasciano un dataset completo per motivi di scala e licensing).

Come funziona DeepSeek-V3.2: approcci, tecniche e training recipe

Per capire davvero come funziona DeepSeek-V3.2, è utile vederlo come un'evoluzione in tre strati: architettura, continued pre-training e post-training con specialist distillation e mixed RL. Il paper è denso, ma i concetti chiave possono essere raccontati in modo abbastanza lineare.

Gli autori partono dal modello precedente DeepSeek-V3.1-Terminus, che era già un LLM molto grande con context length esteso a centinaia di migliaia di token, e applicano una fase di continued pre-training per introdurre DeepSeek Sparse Attention senza cambiare tutto il resto della struttura Transformer. Strutturalmente, dichiarano che l'unica modifica architetturale rispetto a V3.1 è proprio DSA, il resto dell'architettura rimane coerente con la linea DeepSeek-V3.

DeepSeek Sparse Attention (DSA) in parole semplici

In un Transformer classico, ogni token "guarda" tutti gli altri token del contesto tramite il meccanismo di attention. Questo è molto costoso, perché la quantità di calcolo cresce molto velocemente con la lunghezza del contesto. DSA viene introdotta esattamente per rompere questo limite.

DSA si basa su due idee fondamentali. La prima è il lightning indexer, un piccolo modulo che, dato un token, stima in modo economico quali altri token sono davvero importanti da considerare. La seconda è un meccanismo di fine-grained token selection, che seleziona solo un sottoinsieme dei token passati come chiavi e valori per calcolare l'attenzione.

In pratica, invece di far fare attention a un token su tutto il contesto, il lightning indexer gli dice "questi sono i token che contano, guarda solo loro". Poiché questo indexer è molto piccolo e può essere eseguito con precisione ridotta, l'overhead aggiunto è minimo rispetto al risparmio sul calcolo dell'attenzione piena.

DSA è integrata dentro il framework MLA (Multi-Head Latent Attention) e sfrutta una configurazione di MQA (Multi-Query Attention), in cui le stesse chiavi e valori vengono condivise tra più teste di attention per guadagnare efficienza. L'idea è che ogni token costruisce una rappresentazione "latente" che viene riutilizzata da più teste, e DSA decide quali di queste rappresentazioni sono realmente rilevanti per ogni passaggio.

In termini di privacy dei dettagli matematici, il paper entra nei dettagli delle proiezioni e dei vettori latenti, ma per una guida pratica su "come funziona DeepSeek-V3.2" è sufficiente ricordare questo. L'attenzione non è più densa, ma sparsificata in modo intelligente: il modello guarda solo dove serve, con un meccanismo che può essere addestrato end-to-end.

Continued pre-training su contesti lunghi

Dopo aver definito DSA, gli autori applicano una fase di continued pre-training partendo dal checkpoint di DeepSeek-V3.1-Terminus. Il dataset usato in questa fase è allineato a quello usato per l'estensione a 128k token, quindi non si tratta di un nuovo corpus totalmente diverso, ma di un raffinamento centrato sull'uso efficiente del contesto lungo con la nuova attention.

Lo scopo è semplice: far sì che il modello impari a usare DSA non solo in teoria, ma in pratica, su testi lunghi, in modo da poter confrontare in maniera pulita costi e prestazioni rispetto al modello precedente. Da qui nasce anche DeepSeek-V3.2-Exp, la versione sperimentale che si concentra su efficienza e comparabilità con V3.1, il cui codice e i checkpoint sono disponibili su Hugging Face e GitHub.

Specialist distillation: tanti esperti, un solo modello finale

Una volta terminato il continued pre-training, si passa a costruire il modello finale tramite post-training. Qui entra in gioco una pipeline abbastanza sofisticata che ruota intorno a due concetti: specialist models e distillation.

Gli autori prima creano una serie di specialist, ognuno fine-tunato dalla stessa base DeepSeek-V3.2 per uno specifico dominio. Citano sei domini principali. Reasoning matematico, coding, logical reasoning generale, agentic tasks generali, agentic coding e agentic search. Ogni specialist viene addestrato con Reinforcement Learning su larga scala, adattando il comportamento del modello a quel dominio in modo mirato.

Poi i dati generati da questi specialist - sia in thinking mode con chain-of-thought esplicita, sia in non-thinking mode con risposte dirette - vengono usati per addestrare un unico modello "universale" tramite distillation. L'obiettivo è che il modello finale sia quasi forte quanto gli specialist in ciascun dominio, ma senza dover mantenere sei modelli separati in produzione.

Gli esperimenti mostrano che il modello distillato è solo leggermente peggiore degli specialist, e che questa piccola distanza può essere colmata con ulteriore RL sul modello unificato. In questo modo DeepSeek-V3.2 diventa una sorta di meta-specialist: un singolo LLM che incorpora le strategie di molti esperti diversi.

Mixed RL Training e GRPO scalato

Nel cuore della ricetta di post-training troviamo il mixed RL training basato su Group Relative Policy Optimization (GRPO), lo stesso algoritmo che DeepSeek ha usato in DeepSeek-R1 per incentivare il reasoning nelle LLM.

In DeepSeek-V3.2, reasoning, agentic behavior e human alignment non sono trattati in fasi separate, ma vengono "mischiati" in un'unica grande fase di RL. Per le task di reasoning e agent vengono usati reward rule-based (per esempio verificare se la soluzione a un problema è corretta), penalità sulla lunghezza e reward di consistenza linguistica. Per le task generali viene usato un generative reward model che valuta le risposte in base a rubriche per prompt.

Questa scelta di unificare tutto in una fase RL ha due vantaggi. Evita la "catastrophic forgetting" tipica dei setup in cui si fa prima RL su un tipo di task e poi su un altro, e consente di controllare in modo più diretto come il modello bilancia ragionamento profondo, efficienza dei token e allineamento con le preferenze umane.

Agentic task synthesis: come si genera un "mondo" per l'agent

Per insegnare a DeepSeek-V3.2 a essere un buon agent, non basta dargli prompt statici. Serve un ambiente. È qui che entra la agentic task synthesis pipeline, una delle parti più affascinanti del paper.

Gli autori costruiscono più di 1800 ambienti e oltre 85.000 prompt complessi usando sia tool reali sia ambienti sintetici. Alcuni esempi di task usano web search API vere, coding tool reali e Jupyter Notebook, quindi il modello interagisce con dati "vivi"; altri ambienti sono completamente simulati.

La pipeline segue tipicamente un ciclo. Si definisce la categoria di task, per esempio pianificare un viaggio usando bash e un tool di ricerca, si popolano i dati nel sandbox, poi il modello stesso sintetizza piccoli tool specializzati sotto forma di funzioni, infine genera task e soluzioni che diventano dati di training per RL.

In breve, DeepSeek-V3.2 impara a operare in agentic scenario non solo leggendo dati statici, ma vivendo in ambienti generati apposta per lui, dove deve combinare reasoning, memory del contesto e uso dei tool.

DeepSeek-V3.2 vs DeepSeek-V3.2-Speciale

Infine, il paper distingue chiaramente fra il modello "ufficiale" DeepSeek-V3.2 e la variante DeepSeek-V3.2-Speciale. Il primo è ottimizzato per il compromesso fra costi e prestazioni, con vincoli più rigidi sul numero di token usati nelle risposte. Il secondo è addestrato con un focus quasi esclusivo sul reasoning, con penalità di lunghezza più leggere e un ulteriore contributo di dataset matematici come DeepSeek-Math-V2 per portare al massimo le capacità di dimostrazione e problem solving.

La morale per chi cerca una "DeepSeek-V3.2 guida completa" è questa. DeepSeek-V3.2 è il modello bilanciato per uso quotidiano e deployment, mentre DeepSeek-V3.2-Speciale è il "mostro" da laboratorio che mostra quale livello di reasoning si può raggiungere quando si spinge tutto al massimo, accettando costi più elevati in termini di token.

DeepSeek-V3.2 risultati: guida alla lettura dei benchmark

Il paper dedica una sezione sostanziosa ai risultati sperimentali, che si possono leggere lungo quattro dimensioni. Reasoning matematico e logico, coding e competizioni, agentic task e tool-use, efficienza dei token e dei costi.

Sul fronte del reasoning matematico, DeepSeek-V3.2 e soprattutto DeepSeek-V3.2-Speciale vengono valutati su benchmark molto selettivi, inclusi AIME 2025, HMMT nelle edizioni di febbraio e novembre, e IMOAnswerBench. I numeri mostrano che DeepSeek-V3.2 è allineato o vicino a GPT-5, mentre la versione Speciale si avvicina o supera Gemini-3.0-Pro, con tassi di successo che toccano la fascia alta della classifica.

Nelle competizioni ufficiali, DeepSeek-V3.2-Speciale viene testato direttamente su problemi reali di IOI 2025 e ICPC World Finals 2025. Gli autori riportano risultati di livello medaglia d'oro, con un posizionamento complessivo secondo in ICPC e decimo in IOI, numeri significativi considerando che il modello non è stato addestrato specificamente su quei contest. Su IMO e CMO 2025, la performance si colloca anch'essa a livello oro, segnalando una comprensione profonda di problemi di algebra, combinatoria, geometria e teoria dei numeri ad alto livello.

Per quanto riguarda il coding competitivo, il paper riporta valutazioni su LiveCodeBench e su Codeforces Rating simulato. DeepSeek-V3.2 raggiunge livelli comparabili a GPT-5, mentre la variante Speciale si avvicina a Gemini-3.0-Pro. Anche qui il trade-off è chiaro. Più reasoning tokens portano a un rating più alto, ma con costi maggiori in termini di lunghezza delle soluzioni generate.

Sul piano delle agentic task, DeepSeek-V3.2 viene testato su benchmark come Tool Decathlon, MCPMark (EvalSys), MCP-Universe e altri set che richiedono l'uso di tool reali e sequenze di azioni multiple. Il paper mostra che il modello generalizza bene a questi ambienti, nonostante molti di essi non siano stati visti direttamente durante RL. È un segnale che la pipeline di agentic task synthesis non produce solo esercizietti artificiali, ma scenari che insegnano strategie riutilizzabili.

Un capitolo importante è quello dell'efficienza. Gli autori confrontano il costo per milione di token tra DeepSeek-V3.1-Terminus e DeepSeek-V3.2 su hardware H800, distinguendo fra fase di prefilling (lettura del contesto) e decoding (produzione della risposta). Grazie a DSA, DeepSeek-V3.2 riduce significativamente il costo in contesti lunghi, mantenendo output comparabili al modello precedente. Questo rende il modello attraente per applicazioni come retrieval-augmented generation, assistenti legali o di ricerca che devono gestire contesti molto estesi.

Infine, una nota importante riguarda la token efficiency. DeepSeek-V3.2-Speciale è fortissimo ma tende a usare più token di Gemini-3.0-Pro, mentre DeepSeek-V3.2 è esplicitamente addestrato per essere più parsimonioso. Il paper lo riconosce come un limite attuale e lo indica come direzione futura di ricerca. Per chi costruisce prodotti, questo è un punto pratico fondamentale: scegliere fra variante bilanciata e variante Speciale significa scegliere fra costo per risposta e massima qualità assoluta.

Concetti chiave da capire bene per leggere il paper DeepSeek-V3.2

Per sfruttare al massimo il paper, ci sono alcuni concetti che vale la pena chiarire prima, così da trasformarlo davvero in una guida completa a DeepSeek-V3.2.

Un primo concetto è il Large Language Model stesso. DeepSeek-V3.2 è un LLM della famiglia Transformer, cioè un modello che legge sequenze di token e, a ogni passo, decide cosa viene dopo usando il meccanismo di attention. Non è fondamentale conoscere tutti i dettagli del Transformer, ma è utile tenere a mente che la parte più costosa del calcolo è proprio l'attenzione fra token, che cresce rapidamente con il contesto.

Da qui deriva il secondo concetto, dense attention vs sparse attention. Nella dense attention, ogni token considera tutti gli altri, mentre nella sparse attention solo un sottoinsieme selezionato. DeepSeek Sparse Attention appartiene alla seconda famiglia: opere come una lente che si concentra sugli elementi davvero importanti della frase o del documento, lasciando in ombra il rumore. Questo permette di allungare il contesto senza far esplodere il costo computazionale.

Un terzo concetto è MLA (Multi-Head Latent Attention) combinato con MQA (Multi-Query Attention). In molte implementazioni moderne di LLM, MQA viene usata per condividere chiavi e valori tra più teste di attention, riducendo l'uso di memoria. MLA è la variante specifica usata nella famiglia DeepSeek-V3, in cui le rappresentazioni latenti permettono una gestione ancora più efficiente del flusso di informazione. DSA si inserisce precisamente in questa struttura, sostituendo la parte di "chi guardo" con un meccanismo learnable più economico.

Un concetto centrale del paper è anche Reinforcement Learning per LLM. In questo contesto, RL significa far generare più risposte al modello e usare una funzione di reward (che può essere rule-based, automatizzata o basata su un altro modello) per dire al sistema quanto è buona ogni risposta. L'algoritmo GRPO ottimizza quindi la policy del modello, cioè il modo in cui sceglie token e strategie, per massimizzare il reward medio. Nel caso di DeepSeek-V3.2, RL viene applicato su più domini diversi in modo simultaneo, con reward diversi a seconda del tipo di task.

Collegato a RL c'è il concetto di thinking mode e non-thinking mode. Nel thinking mode, il modello esplicita la chain-of-thought, cioè scrive il suo ragionamento interno prima di dare una risposta finale. Nel non-thinking mode, invece, punta a una risposta diretta e concisa. DeepSeek-V3.2 è addestrato per gestire entrambi i modi, e nel contesto degli agent, il thinking mode può essere integrato nel flusso di tool call, permettendo al modello di ragionare, chiamare un tool, aggiornare il ragionamento, e così via.

Un altro tema chiave è agentic AI. Invece di limitarsi a generare testo, un agent può usare tool esterni, come motori di ricerca, compiler, database o API. Il paper sottolinea che molti benchmark moderni come Tool Decathlon e MCP-Universe misurano proprio questa capacità: non solo rispondere, ma pianificare, eseguire, verificare e correggere azioni in ambienti complessi. DeepSeek-V3.2 è costruito proprio per eccellere in questi scenari.

C'è poi la questione delle synthetic tasks. Una preoccupazione classica è che allenare un modello su task sintetici possa portare a overfitting su pattern artificiali, poco utili nel mondo reale. Gli autori affrontano direttamente il tema, mostrando che le synthetic agentic tasks usate per RL sono abbastanza difficili da mettere in difficoltà persino modelli chiusi di punta, e che il training su queste task porta a miglioramenti misurabili su benchmark agentic reali non visti durante l'addestramento.

Infine, un concetto pratico ma spesso sottovalutato è il rapporto fra pre-training compute e post-training compute. Molti modelli open source investono quasi tutto il budget di calcolo nella fase di pre-training e pochissimo nel post-training. DeepSeek-V3.2 rompe questo pattern, dedicando una frazione significativa del compute alla fase di RL e distillation. Questo è uno dei motivi per cui riesce ad avvicinarsi ai modelli chiusi: non è solo questione di grandezza del modello, ma di quanto si investe nella fase in cui il modello impara a ragionare davvero.

Quiz su DeepSeek-V3.2: verifica la comprensione

Domanda 1 - Qual è lo scopo principale di DeepSeek Sparse Attention?

La DeepSeek Sparse Attention ha lo scopo di rendere il modello molto più efficiente su contesti lunghi, evitando che ogni token debba "guardare" tutti gli altri. In pratica, seleziona solo i token davvero rilevanti tramite il lightning indexer e applica attention solo su quelli. Questo permette a DeepSeek-V3.2 di gestire documenti lunghi riducendo costi e latenza, mantenendo prestazioni di qualità paragonabili alla dense attention.

Domanda 2 - Perché DeepSeek-V3.2 usa specialist models prima della distillation?

Gli specialist models servono a spingere al massimo le prestazioni del modello in singoli domini come matematica, coding o agentic tasks, usando Reinforcement Learning mirato. Una volta che ogni specialist è diventato molto forte nel proprio ambito, i dati che genera vengono distillati in un unico modello generale. Così DeepSeek-V3.2 eredita il meglio dei vari specialist senza dover mantenere molti modelli diversi, semplificando deployment e utilizzo.

Domanda 3 - Che differenza c'è fra DeepSeek-V3.2 e DeepSeek-V3.2-Speciale?

DeepSeek-V3.2 è la versione ufficiale pensata per l'uso quotidiano, orientata a un buon equilibrio tra qualità delle risposte, costi e lunghezza dei contesti. DeepSeek-V3.2-Speciale è una variante ad alto compute progettata per massimizzare il reasoning, con penalità di lunghezza più leggere e più dati dedicati alla matematica avanzata. Questo la rende ideale per competizioni e benchmark estremi, ma meno efficiente in termini di token per risposta rispetto al modello ufficiale.

Domanda 4 - Perché gli autori insistono sulla distinzione fra thinking mode e non-thinking mode?

La distinzione è importante perché non tutti i casi d'uso richiedono chain-of-thought esplicito. Nel thinking mode, il modello produce un ragionamento dettagliato prima della risposta finale, utile per compiti difficili, verifica di soluzioni o ambienti agentic complessi. Nel non-thinking mode, invece, prioritizza risposte dirette e concise, più adatte a casi d'uso tradizionali come chatbot veloci, completamento di testo o assistenti dove il costo di token è critico.

Domanda 5 - Che cosa rende la pipeline di agentic task synthesis diversa da un semplice set di prompt statici?

La pipeline non si limita a scrivere prompt e soluzioni, ma costruisce veri e propri ambienti interattivi in cui il modello deve usare tool reali o simulati. Include la definizione di categorie di task, la creazione di sandbox con dati raccolti via strumenti come web search, la generazione di tool specializzati e la produzione di task e soluzioni che alimentano RL. Questo approccio insegna al modello strategie di azione e decisione che possono generalizzare a benchmark agentic non visti durante il training.

Domanda 6 - In che modo DeepSeek-V3.2 contribuisce alla comunità open source rispetto ai modelli chiusi?

DeepSeek-V3.2 mette a disposizione non solo checkpoints e codice di inference, ma anche una ricetta relativamente dettagliata su come scalare RL, distillation e agentic training con un budget di calcolo molto consistente. Mostra che è possibile avvicinare le prestazioni di modelli chiusi di fascia top con una pipeline completamente aperta, e offre alla comunità una base concreta su cui costruire varianti specializzate, integrazioni con hardware diversi e nuove linee di ricerca su reasoning e agentic AI.

Domanda 7 - Qual è il principale limite riconosciuto dagli autori e perché è importante per chi usa il modello in produzione?

Il limite principale evidenziato dagli autori è la token efficiency, soprattutto nella variante Speciale. Pur ottenendo prestazioni eccellenti, DeepSeek-V3.2-Speciale tende a usare più token di modelli come Gemini-3.0-Pro per compiti analoghi. Questo significa costi più alti e latenza maggiore, fattori critici in scenari di produzione con molti utenti o budget limitati. DeepSeek-V3.2 ufficiale cerca di bilanciare questo aspetto, ma gli autori indicano chiaramente che migliorare l'efficienza rimane una direzione chiave per le future versioni.

Studi correlati e altre guide da conoscere

Per completare davvero una "guida a DeepSeek-V3.2", vale la pena inquadrare il modello all'interno dell'ecosistema DeepSeek e dei benchmark su cui viene valutato.

Un primo lavoro strettamente collegato è il DeepSeek-V3 technical report, che racconta la generazione precedente della famiglia. Lì vengono introdotti elementi come MLA, la co-progettazione hardware/software su cluster H800 e molte scelte di architettura che DeepSeek-V3.2 eredita. Se vuoi capire le fondamenta su cui è costruito V3.2, questo report è la lettura di base.

Un secondo pilastro è DeepSeek-R1, un lavoro dedicato a mostrare come il Reinforcement Learning possa incentivare il reasoning in LLM dando reward a catene di pensiero verificabili. DeepSeek-R1 ha dimostrato che investire compute nella fase di RL, con algoritmi come GRPO, può trasformare un LLM generico in un modello molto più forte su matematica, logica e compiti strutturati. DeepSeek-V3.2 estende questi concetti, applicandoli a un modello ancora più grande e introducendo l'agentic dimension.

Sul fronte dei benchmark agentic, il paper fa riferimento a sistemi come MCPMark (EvalSys), Tool Decathlon e MCP-Universe, che sono collezioni di task realistiche in cui i modelli devono usare tool vari e gestire interazioni multi-step. Tool Decathlon, ad esempio, propone dieci famiglie di compiti che vanno dalla ricerca sul web a operazioni su file, fino a interazioni con ambienti complessi. MCP-Universe integra multiple API di "model context protocol" per simulare un ecosistema di tool reali. DeepSeek-V3.2 usa questi benchmark per dimostrare che il training su synthetic agentic tasks generalizza a scenari non visti.

Un altro lavoro collegato è InfoDeepSeek, che si concentra sulla valutazione dell'information seeking agentic, cioè sulla capacità di un modello di condurre ricerche multi-turn, gestire fonti rumorose e aggiornare piani di ricerca nel tempo. Questo tipo di benchmark è molto vicino agli scenari in cui DeepSeek-V3.2 viene posizionato come "universal agent" per ricerca e automazione complessa.

Non vanno dimenticati i modelli e le ricerche sulla agentic AI di altri gruppi, in particolare le linee Gemini-2.5 e Gemini-3.0 di DeepMind e i reasoning models di OpenAI, che il paper cita come riferimento chiuso di fascia alta. DeepSeek-V3.2 viene esplicitamente confrontato con GPT-5 e Gemini-3.0-Pro, posizionandosi come alternativa open in grado di avvicinarsi alle loro prestazioni a costi più contenuti.

Infine, per completare la panoramica, è interessante guardare ai progetti open che costruiscono sopra DeepSeek-V3.2. In particolare repository come DeepSeek-Math-V2, che sfrutta DeepSeek-V3.2-Exp-Base per spingere ancora di più il reasoning matematico, e le integrazioni nelle piattaforme di inference come SGLang, che offrono tutorial pratici su come utilizzare DeepSeek-V3.2 in produzione. Questi materiali, insieme al paper, costituiscono una vera "DeepSeek-V3.2 guida completa" che copre teoria, implementazione e casi d'uso reali.

Se il tuo obiettivo è capire non solo "come funziona DeepSeek-V3.2" ma anche come usarlo per costruire agent, workflow di automazione o sistemi di ricerca avanzata, il percorso ideale è questo. Prima leggere il tech report di V3, poi il paper di V3.2, e infine esplorare repository e tutorial che ti mostrano come integrare il modello nel tuo stack, dal deployment su GPU moderne all'uso con API multi-tool.