Claude Sonnet 4.6: cos'è, come funziona e novità principali
quasi Opus 4.5 ma più veloce (?)

Anthropic ha rilasciato Claude Sonnet 4.6, nuova versione della linea Sonnet dei modelli Claude. Si tratta di un Large Language Model multimodale progettato per coding, long-context reasoning e agent workflows, ora disponibile come modello di default su claude.ai e API.
L'obiettivo è offrire performance vicine ai modelli top-tier come Opus 4.5 mantenendo costi contenuti e velocità.
Claude Sonnet 4.6: cos'è
Claude Sonnet 4.6 è un LLM basato su architettura transformer, ottimizzato per:
- generazione e revisione di codice
- task multi-step in ambienti software
- analisi di documenti lunghi
- orchestrazione di agent
Fa parte della famiglia Claude 4.x e si posiziona tra le versioni "Opus" (top performance) e le configurazioni più leggere.
Le novità di Claude Sonnet 4.6
1. Context window fino a 1 milione di token
La novità più rilevante è il supporto (in beta) a una context window da 1M token.
In pratica significa poter:
- analizzare interi repository
- gestire contratti o documenti enterprise
- mantenere stato conversazionale molto esteso
Questo riduce la necessità di chunking aggressivo e migliora la coerenza globale.
2. Miglioramenti nel coding
Anthropic dichiara progressi concreti nel coding quotidiano:
- maggiore comprensione del codebase
- migliore refactoring
- meno errori sintattici
- migliore gestione di istruzioni multi-file
Il modello mostra migliore adherence alle specifiche e maggiore consistenza nella generazione di patch.
3. Computer use e agent planning
Claude Sonnet 4.6 migliora nei benchmark di computer use, ovvero task che simulano interazione con ambienti digitali:
- navigazione browser
- compilazione form complessi
- manipolazione di fogli di calcolo
- workflow sequenziali
Questo implica miglioramenti nel planning implicito e nella gestione dello stato, aspetti cruciali per agent autonomi.
4. Prezzo invariato
Uno degli elementi più rilevanti per sviluppatori e team prodotto è il pricing:
- circa $3 per milione di input token
- circa $15 per milione di output token
Le performance crescono senza aumento di costo, rendendo il modello competitivo per utilizzo in produzione.
Come funziona Claude Sonnet 4.6
Dal punto di vista tecnico, Claude Sonnet 4.6 rimane un modello basato su transformers con self-attention, ottimizzato tramite:
- fine-tuning supervisionato
- reinforcement learning da feedback umano
- safety alignment avanzato
La gestione del long context è resa possibile da ottimizzazioni principalmente nei meccanismi di attention (vedi deltanet), che consentono di scalare senza degradare eccessivamente il throughput.
Differenze rispetto a Sonnet 4.5
Rispetto alla versione precedente, Sonnet 4.6 offre:
- migliore coerenza nelle risposte
- maggiore capacità di seguire istruzioni complesse
- miglioramenti misurabili in coding e reasoning
- supporto esteso al long context
Benchmark a confronto: Sonnet 4.6 vs Opus, Gemini e GPT-5.2
Anthropic accompagna il rilascio di Claude Sonnet 4.6 con una tabella comparativa su benchmark agentici, reasoning e coding. I dati permettono di posizionare il modello rispetto a Opus 4.6, Opus 4.5, Gemini 3 Pro e GPT-5.2.
Di seguito i numeri principali.
Agentic terminal coding (Terminal-Bench 2.0)
- Sonnet 4.6: 59.1%
- Sonnet 4.5: 51.0%
- Opus 4.6: 65.4%
- Opus 4.5: 59.8%
- Gemini 3 Pro: 56.2%
- GPT-5.2: 64.7%
Sonnet 4.6 migliora nettamente rispetto alla 4.5 (+8 punti percentuali) e si avvicina ai modelli top-tier, pur restando sotto Opus 4.6 e GPT-5.2.
Agentic coding (SWE-bench Verified)
- Sonnet 4.6: 79.6%
- Sonnet 4.5: 77.2%
- Opus 4.6: 80.8%
- Opus 4.5: 80.9%
- Gemini 3 Pro: 78.0%
- GPT-5.2: 80.0%
Qui Sonnet 4.6 è sostanzialmente allineato ai modelli di fascia alta. La distanza da Opus e GPT-5.2 è inferiore a 1-1.5 punti percentuali.
Agentic computer use (OSWorld Verified)
- Sonnet 4.6: 72.5%
- Sonnet 4.5: 61.4%
- Opus 4.6: 72.7%
- Opus 4.5: 66.3%
- GPT-5.2: 38.2%
Il salto rispetto alla 4.5 è marcato (+11 punti). Sonnet 4.6 è praticamente allineato a Opus 4.6 e supera nettamente GPT-5.2 in questo benchmark specifico.
Agentic tool use (τ2-bench)
Retail:
- Sonnet 4.6: 91.7%
- Opus 4.6: 91.9%
- GPT-5.2: 82.0%
Telecom:
- Sonnet 4.6: 97.9%
- Opus 4.6: 99.3%
- GPT-5.2: 98.7%
Sonnet 4.6 è molto competitivo nell'uso di tool esterni, specialmente in contesti retail.
Multidisciplinary reasoning (Humanity's Last Exam)
Senza tool:
- Sonnet 4.6: 33.2%
- Opus 4.6: 40.0%
- Gemini 3 Pro: 37.5%
- GPT-5.2: 36.6%
Con tool:
- Sonnet 4.6: 49.0%
- Opus 4.6: 53.0%
- Gemini 3 Pro: 45.8%
- GPT-5.2: 50.0%
Con tool abilitati, Sonnet 4.6 si avvicina molto ai modelli di fascia superiore e supera Gemini 3 Pro.
Novel problem solving (ARC-AGI-2)
- Sonnet 4.6: 58.3%
- Sonnet 4.5: 13.6%
- Opus 4.6: 68.8%
- GPT-5.2: 54.2%
- Gemini 3 Pro: 31.1%
Il miglioramento rispetto alla versione precedente è drastico. Sonnet 4.6 supera GPT-5.2 e Gemini 3 Pro su questo benchmark.
Graduate-level reasoning (GPQA Diamond)
- Sonnet 4.6: 89.9%
- Opus 4.6: 91.3%
- Gemini 3 Pro: 91.9%
- GPT-5.2: 93.2%
Qui i modelli top restano avanti, ma Sonnet 4.6 mantiene una performance molto alta, sopra l'89%.
Visual reasoning (MMMU-Pro)
Senza tool:
- Sonnet 4.6: 74.5%
- Opus 4.6: 73.9%
- Gemini 3 Pro: 81.0%
- GPT-5.2: 79.5%
Con tool:
- Sonnet 4.6: 75.6%
- Opus 4.6: 77.3%
- GPT-5.2: 80.4%
Nel visual reasoning Gemini 3 Pro e GPT-5.2 mantengono un vantaggio.
Cosa raccontano questi numeri
Claude Sonnet 4.6:
- riduce drasticamente il gap con Opus 4.6
- supera Sonnet 4.5 in quasi tutti i benchmark
- è competitivo o superiore a GPT-5.2 in diversi test agentici
- resta leggermente sotto i modelli top nei task di reasoning accademico puro
Il dato più interessante è la convergenza: un modello di fascia intermedia che, su coding e agentic workflows, opera ormai nello stesso ordine di grandezza dei flagship model.
Se vuoi posso trasformare questa sezione in una tabella HTML ottimizzata per SEO e featured snippet.
A chi conviene usare Claude Sonnet 4.6
Claude Sonnet 4.6 è particolarmente adatto a:
- sviluppatori che lavorano su codebase ampie
- team che costruiscono agent multi-step
- product manager che testano flussi automatizzati
- professionisti che analizzano grandi volumi documentali
Il modello rappresenta un equilibrio tra costo, qualità e scalabilità.
Claude Sonnet 4.6 spiegato semplice
In termini pratici, è un modello più potente del precedente, capace di leggere più testo alla volta, scrivere codice in modo più affidabile e gestire task più complessi, senza costare di più.
Per chi usa LLM in produzione, significa meno workaround, meno frammentazione del prompt e maggiore stabilità nei risultati.