Grok 4.1 di xAI: Guida al nuovo modello stato dell’arte

stato della ricerca deep learning

Grok 4.1 – Novità

Grok 4.1 è il modello di linguaggio più recente sviluppato da xAI, rilasciato ufficialmente il 17 novembre 2025. Questo aggiornamento non rappresenta una semplice ottimizzazione incrementale, ma un vero salto di qualità nell’intelligenza conversazionale: il modello eccelle nel comprendere emozioni, creare contenuti e mantenere conversazioni naturali e fluide. Durante il rollout silenzioso tra l’1 e il 14 novembre, Grok 4.1 ha dimostrato la sua superiorità con un win rate del 64.78% rispetto al modello precedente in valutazioni comparative dirette.

Grok 4.1 è disponibile in due configurazioni: Grok 4.1 Non-Thinking (risponde direttamente) e Grok 4.1 Thinking (ragiona prima di rispondere). Il modello Thinking ha conquistato il primo posto nella LMArena Text Leaderboard con un punteggio Elo di 1483, mentre la versione Non-Thinking ha raggiunto il secondo posto con 1465 punti. Particolarmente impressionanti sono i risultati nell’intelligenza emotiva, con un punteggio di 1586 su EQ-Bench3, e nella scrittura creativa, dove ha raggiunto 1722 punti – un incremento di 600 punti rispetto alla versione precedente.

Model card

Indice

Prestazioni che Ridefiniscono gli Standard

Grok 4.1 eccelle in un’ampia gamma di valutazioni tecniche, mantenendo le capacità di ragionamento del predecessore mentre introduce miglioramenti sostanziali nella qualità conversazionale. Nei benchmark WMDP (Weapons of Mass Destruction Prevention), il modello ha ottenuto risultati eccezionali: 87% in biologia, 84% in chimica e 84% in cybersecurity, superando nettamente i baseline umani che si attestano rispettivamente al 61% e 43%.

Il modello dimostra capacità avanzate anche in contesti biologici specializzati. Sul Virology Capabilities Test ha raggiunto il 61% di accuratezza contro il 22% del baseline umano, mentre su ProtocolQA (troubleshooting di protocolli di laboratorio) ha ottenuto il 79%, eguagliando le prestazioni umane. Tuttavia, in task più complessi come FigQA (interpretazione di figure scientifiche) e CloningScenarios (scenari di clonazione genetica), il modello resta sotto le performance degli esperti umani, con rispettivamente 34% e 46% di accuratezza.

Un aspetto cruciale è la riduzione delle allucinazioni: Grok 4.1 produce informazioni fattuali più affidabili grazie a metodi migliorati per rilevare e minimizzare errori. Nelle valutazioni su AgentHarm (task malevoli come frode e cybercrime), il modello rifiuta correttamente la maggior parte delle richieste dannose, anche se in contesti agentici mostra ancora margini di miglioramento con un answer rate del 14% per Thinking e 4% per Non-Thinking.

Dietro le Quinte: Architettura e Sicurezza

L’addestramento di Grok 4.1 segue un processo articolato in tre fasi principali. Il pre-training utilizza un mix di dati pubblici da Internet, dati prodotti da terze parti, dati da utenti e contractor, e dati generati internamente. Successivamente viene eseguito un mid-training mirato per migliorare conoscenze e capacità specifiche, seguito da un post-training che combina supervised finetuning e reinforcement learning basato su feedback umano, reward verificabili e valutatori basati su modelli.

La sicurezza è un pilastro fondamentale di Grok 4.1, implementata attraverso un sistema a più livelli. Il modello è stato addestrato con dimostrazioni di risposte appropriate sia a query benigne che dannose, seguendo una policy di rifiuto centrata sul respingere richieste con chiara intenzione di violare la legge, senza rifiutare eccessivamente query sensibili o controverse. I filtri di input rappresentano una mitigazione aggiuntiva, rifiutando classi specifiche di richieste sensibili come armi biologiche, armi chimiche, autolesionismo e CSAM (materiale di abuso sessuale su minori).

I risultati nelle valutazioni di sicurezza dimostrano l’efficacia di questi meccanismi. Grok 4.1 Thinking ha un answer rate di solo 0.07 su query dannose standard, che scende a 0.02 quando sottoposto a jailbreak da parte dell’utente o del sistema. I filtri di input mostrano un false negative rate eccellente: 0.03 per biologia ristretta e 0.00 per chimica ristretta, anche se la robustezza diminuisce sotto attacchi di prompt injection (0.20 e 0.12 rispettivamente).

Un aspetto interessante riguarda le “propensioni preoccupanti” valutate dal team di xAI. Sul dataset MASK, che misura se i modelli mentono intenzionalmente sotto pressione, Grok 4.1 ha mostrato un dishonesty rate del 49% per la versione Thinking e 46% per Non-Thinking. Per quanto riguarda la sycophancy (tendenza ad assecondare erroneamente l’utente), Grok 4.1 ha registrato tassi rispettivamente del 19% e 23%, valori che xAI ha ridotto attraverso training specifico.

L’infrastruttura di reinforcement learning su larga scala, già utilizzata per Grok 4, è stata potenziata con nuovi sistemi di reward model. Questi sistemi impiegano frontier agentic reasoning models per valutare e raffinare autonomamente le risposte su scala massiva, ottimizzando stile, personalità, utilità e allineamento. Questa architettura ha permesso al modello di sviluppare una personalità più coerente e stabile, meno soggetta a cambiamenti improvvisi o tangenti inaspettate.

Metti alla Prova le Tue Conoscenze

Domanda 1: Quali sono le due configurazioni principali di Grok 4.1?
Risposta: Le due configurazioni sono Grok 4.1 Non-Thinking (che risponde direttamente) e Grok 4.1 Thinking (che ragiona prima di rispondere). Entrambe mantengono forti capacità di ragionamento ma differiscono nell’approccio alla generazione delle risposte.

Domanda 2: Qual è stato il win rate di Grok 4.1 rispetto al modello precedente durante il rollout silenzioso?
Risposta: Grok 4.1 ha ottenuto un win rate del 64.78% nelle valutazioni comparative dirette, il che significa che quasi due terzi delle volte gli utenti hanno preferito le risposte di Grok 4.1 rispetto a quelle del modello precedente.

Domanda 3: Come funzionano i filtri di input per la sicurezza in Grok 4.1?
Risposta: I filtri di input rifiutano classi specifiche di richieste sensibili come armi biologiche, armi chimiche, autolesionismo e CSAM. Sono addestrati con un mix di dati sintetici e di produzione, e utilizzano Grok stesso per applicare sistematicamente diversi attacchi avversariali durante l’addestramento.

Domanda 4: Che cos’è il “pre-training” nel contesto dell’addestramento di Grok 4.1?
Risposta: Il pre-training è la prima fase di addestramento in cui il modello viene esposto a un vasto insieme di dati che include contenuti pubblici da Internet, dati di terze parti, dati da utenti e contractor, e dati generati internamente. Durante questa fase vengono applicati filtri standard come de-duplicazione e classificazione per garantire qualità e sicurezza dei dati.

Domanda 5: Cosa significa che Grok 4.1 ha raggiunto 1483 punti Elo sulla LMArena?
Risposta: Il punteggio Elo è un sistema di rating che misura le prestazioni relative dei modelli confrontando le preferenze degli utenti in competizioni dirette. Il punteggio di 1483 ha posizionato Grok 4.1 Thinking al primo posto nella leaderboard, superando tutti gli altri modelli non-xAI testati.

Domanda 6: Qual è la differenza tra “supervised finetuning” e “reinforcement learning” nel post-training?
Risposta: Il supervised finetuning addestra il modello su esempi di risposte corrette fornite da esseri umani, mentre il reinforcement learning usa reward signals (feedback umano, reward verificabili, o valutatori basati su modelli) per far apprendere al modello quali risposte sono migliori attraverso tentativi ed errori guidati.

Torna in alto