Claude Sonnet 4.6: cos'è, come funziona e novità principali

quasi Opus 4.5 ma più veloce (?)

18 febbraio 2026

Anthropic ha rilasciato Claude Sonnet 4.6, nuova versione della linea Sonnet dei modelli Claude. Si tratta di un Large Language Model multimodale progettato per coding, long-context reasoning e agent workflows, ora disponibile come modello di default su claude.ai e API.

L'obiettivo è offrire performance vicine ai modelli top-tier come Opus 4.5 mantenendo costi contenuti e velocità.

Claude Sonnet 4.6: cos'è

Claude Sonnet 4.6 è un LLM basato su architettura transformer, ottimizzato per:

generazione e revisione di codice
task multi-step in ambienti software
analisi di documenti lunghi
orchestrazione di agent

Fa parte della famiglia Claude 4.x e si posiziona tra le versioni "Opus" (top performance) e le configurazioni più leggere.

Le novità di Claude Sonnet 4.6

1. Context window fino a 1 milione di token

La novità più rilevante è il supporto (in beta) a una context window da 1M token.

In pratica significa poter:

analizzare interi repository
gestire contratti o documenti enterprise
mantenere stato conversazionale molto esteso

Questo riduce la necessità di chunking aggressivo e migliora la coerenza globale.

2. Miglioramenti nel coding

Anthropic dichiara progressi concreti nel coding quotidiano:

maggiore comprensione del codebase
migliore refactoring
meno errori sintattici
migliore gestione di istruzioni multi-file

Il modello mostra migliore adherence alle specifiche e maggiore consistenza nella generazione di patch.

3. Computer use e agent planning

Claude Sonnet 4.6 migliora nei benchmark di computer use, ovvero task che simulano interazione con ambienti digitali:

navigazione browser
compilazione form complessi
manipolazione di fogli di calcolo
workflow sequenziali

Questo implica miglioramenti nel planning implicito e nella gestione dello stato, aspetti cruciali per agent autonomi.

4. Prezzo invariato

Uno degli elementi più rilevanti per sviluppatori e team prodotto è il pricing:

circa $3 per milione di input token
circa $15 per milione di output token

Le performance crescono senza aumento di costo, rendendo il modello competitivo per utilizzo in produzione.

Come funziona Claude Sonnet 4.6

Dal punto di vista tecnico, Claude Sonnet 4.6 rimane un modello basato su transformers con self-attention, ottimizzato tramite:

fine-tuning supervisionato
reinforcement learning da feedback umano
safety alignment avanzato

La gestione del long context è resa possibile da ottimizzazioni principalmente nei meccanismi di attention (vedi deltanet), che consentono di scalare senza degradare eccessivamente il throughput.

Differenze rispetto a Sonnet 4.5

Rispetto alla versione precedente, Sonnet 4.6 offre:

migliore coerenza nelle risposte
maggiore capacità di seguire istruzioni complesse
miglioramenti misurabili in coding e reasoning
supporto esteso al long context

Benchmark a confronto: Sonnet 4.6 vs Opus, Gemini e GPT-5.2

Anthropic accompagna il rilascio di Claude Sonnet 4.6 con una tabella comparativa su benchmark agentici, reasoning e coding. I dati permettono di posizionare il modello rispetto a Opus 4.6, Opus 4.5, Gemini 3 Pro e GPT-5.2.

Di seguito i numeri principali.

Agentic terminal coding (Terminal-Bench 2.0)

Sonnet 4.6: 59.1%
Sonnet 4.5: 51.0%
Opus 4.6: 65.4%
Opus 4.5: 59.8%
Gemini 3 Pro: 56.2%
GPT-5.2: 64.7%

Sonnet 4.6 migliora nettamente rispetto alla 4.5 (+8 punti percentuali) e si avvicina ai modelli top-tier, pur restando sotto Opus 4.6 e GPT-5.2.

Agentic coding (SWE-bench Verified)

Sonnet 4.6: 79.6%
Sonnet 4.5: 77.2%
Opus 4.6: 80.8%
Opus 4.5: 80.9%
Gemini 3 Pro: 78.0%
GPT-5.2: 80.0%

Qui Sonnet 4.6 è sostanzialmente allineato ai modelli di fascia alta. La distanza da Opus e GPT-5.2 è inferiore a 1-1.5 punti percentuali.

Agentic computer use (OSWorld Verified)

Sonnet 4.6: 72.5%
Sonnet 4.5: 61.4%
Opus 4.6: 72.7%
Opus 4.5: 66.3%
GPT-5.2: 38.2%

Il salto rispetto alla 4.5 è marcato (+11 punti). Sonnet 4.6 è praticamente allineato a Opus 4.6 e supera nettamente GPT-5.2 in questo benchmark specifico.

Agentic tool use (τ2-bench)

Retail:

Sonnet 4.6: 91.7%
Opus 4.6: 91.9%
GPT-5.2: 82.0%

Telecom:

Sonnet 4.6: 97.9%
Opus 4.6: 99.3%
GPT-5.2: 98.7%

Sonnet 4.6 è molto competitivo nell'uso di tool esterni, specialmente in contesti retail.

Multidisciplinary reasoning (Humanity's Last Exam)

Senza tool:

Sonnet 4.6: 33.2%
Opus 4.6: 40.0%
Gemini 3 Pro: 37.5%
GPT-5.2: 36.6%

Con tool:

Sonnet 4.6: 49.0%
Opus 4.6: 53.0%
Gemini 3 Pro: 45.8%
GPT-5.2: 50.0%

Con tool abilitati, Sonnet 4.6 si avvicina molto ai modelli di fascia superiore e supera Gemini 3 Pro.

Novel problem solving (ARC-AGI-2)

Sonnet 4.6: 58.3%
Sonnet 4.5: 13.6%
Opus 4.6: 68.8%
GPT-5.2: 54.2%
Gemini 3 Pro: 31.1%

Il miglioramento rispetto alla versione precedente è drastico. Sonnet 4.6 supera GPT-5.2 e Gemini 3 Pro su questo benchmark.

Graduate-level reasoning (GPQA Diamond)

Sonnet 4.6: 89.9%
Opus 4.6: 91.3%
Gemini 3 Pro: 91.9%
GPT-5.2: 93.2%

Qui i modelli top restano avanti, ma Sonnet 4.6 mantiene una performance molto alta, sopra l'89%.

Visual reasoning (MMMU-Pro)

Senza tool:

Sonnet 4.6: 74.5%
Opus 4.6: 73.9%
Gemini 3 Pro: 81.0%
GPT-5.2: 79.5%

Con tool:

Sonnet 4.6: 75.6%
Opus 4.6: 77.3%
GPT-5.2: 80.4%

Nel visual reasoning Gemini 3 Pro e GPT-5.2 mantengono un vantaggio.

Cosa raccontano questi numeri

Claude Sonnet 4.6:

riduce drasticamente il gap con Opus 4.6
supera Sonnet 4.5 in quasi tutti i benchmark
è competitivo o superiore a GPT-5.2 in diversi test agentici
resta leggermente sotto i modelli top nei task di reasoning accademico puro

Il dato più interessante è la convergenza: un modello di fascia intermedia che, su coding e agentic workflows, opera ormai nello stesso ordine di grandezza dei flagship model.

Se vuoi posso trasformare questa sezione in una tabella HTML ottimizzata per SEO e featured snippet.

A chi conviene usare Claude Sonnet 4.6

Claude Sonnet 4.6 è particolarmente adatto a:

sviluppatori che lavorano su codebase ampie
team che costruiscono agent multi-step
product manager che testano flussi automatizzati
professionisti che analizzano grandi volumi documentali

Il modello rappresenta un equilibrio tra costo, qualità e scalabilità.

Claude Sonnet 4.6 spiegato semplice

In termini pratici, è un modello più potente del precedente, capace di leggere più testo alla volta, scrivere codice in modo più affidabile e gestire task più complessi, senza costare di più.

Per chi usa LLM in produzione, significa meno workaround, meno frammentazione del prompt e maggiore stabilità nei risultati.