Alibaba lancia la serie Qwen 3.5 Medium: 35B-A3B, Qwen 3.5-Flash e Qwen 27B
gpt 5.1 mini, open source

Alibaba Qwen Team ha appena annunciato il rilascio della serie Qwen 3.5 Medium, una nuova famiglia di modelli multimodali progettata per dominare le applicazioni agentiche e l'efficienza locale. Questa serie punta a ridefinire il rapporto tra dimensioni del modello e prestazioni intellettive, dimostrando che "meno calcolo, più intelligenza" è il futuro dell'AI e sfidando apertamente giganti molto più ingombranti.
Seppur dal nome Qwen 3.5 possa sembrare un aggiornamento incrementale, in realtà un salto enorme nell'efficienza computazionale (grazie all'architettura MoE) e nella gestione di lunghe finestre di contesto (fino a 1 milione di token).
Un'architettura ibrida per efficienza estrema
Il cuore dell'annuncio risiede nell'efficienza architetturale. Nonostante il modello di punta (Qwen3.5-35B-A3B) abbia ben 35 miliardi di parametri totali, ne attiva solo 3 miliardi (A3B) per ogni singolo token generato.
Questo risultato ingegneristico è ottenuto tramite un'architettura ibrida all'avanguardia che combina reti Gated Delta Networks (linear attention) con blocchi Gated Attention standard e una gestione Sparse Mixture-of-Experts (MoE) con 256 esperti. A questo si aggiunge una massiccia pipeline di post-training basata su Reinforcement Learning (RL) scalato su ambienti multi-agente, che spinge le capacità di thinking (ragionamento profondo) e programmazione oltre i limiti della generazione precedente, battendo modelli che superano i 200B di parametri.
La famiglia Qwen 3.5 Medium
La release è composta da diverse varianti open-weight, tutte disponibili su Hugging Face, ciascuna pensata per specifiche esigenze di calcolo:
- Qwen3.5-35B-A3B: Il modello di punta per efficienza e prestazioni locali. Con soli 3B di parametri attivi, vanta performance strabilianti nel reasoning e nel coding agentico. Supporta input visivi nativi (Vision-Language) e la comprensione di ben 201 lingue diverse.
- Qwen3.5-Flash: La versione ottimizzata per il deploy, basato sul modello 35B-A3B. Ospitata su Alibaba Cloud Model Studio, offre nativamente 1 milione di token di contesto e l'uso ufficiale di tools integrati, posizionandosi come scelta ideale per creare agenti commerciali a bassissimo costo.
- Qwen3.5-122B-A10B: Il fratello maggiore che assottiglia ulteriormente il divario con i modelli di frontiera top di gamma, attivando solo 10B di parametri per token su un totale di 122 miliardi.
- Qwen3.5-27B: Una variante densa estremamente potente e compatta, ottimizzata per contesti linguistici massivi.
Efficienza e Deployment
Il vero punto di forza di Qwen3.5-35B-A3B è l'incredibile velocità di inferenza unita al basso consumo di memoria (VRAM). È possibile far girare il modello comodamente su hardware consumer, come una singola GPU da 24GB (es. RTX 3090/4090) o un Mac Apple Silicon.
Grazie all'attivazione selettiva MoE, la velocità di decoding è molto competitva: su hardware di fascia alta con backend ottimizzati, la velocità di decoding è tra i 100 e i 180 tokens/s, pur elaborando processi di lunghe catene di pensiero.
Per facilitare l'adozione day-zero, la serie è subito compatibile con i framework più amati:
- Unsloth (per quantizzazioni dinamiche e finetuning ultrarapido)
- llama.cpp / Ollama (per inferenza locale su GPU e CPU)
- vLLM e SgLang (per serving di produzione ad alto throughput)
Qwen3.5-35B-A3B con Unsloth e Ollama
Su Hugging Face e sulle documentazioni ufficiali potete trovare i file in formato GGUF pronti all'uso, con un plauso particolare a Unsloth che garantisce compatibilità nativa dal giorno zero.
Si consiglia di utilizzare le versioni Dynamic 4-bit (dove i layer cruciali vengono mantenuti a 8 o 16-bit per non perdere precisione) per un totale di memoria occupata di circa 22 GB. Se usate Ollama, vi basterà lanciare da terminale: ollama run qwen3.5:35b-a3b per iniziare subito a chattare con il modello.
Punti di forza dell'AI "Agentic" e locale
Questa release dimostra che la battaglia per l'AI non si basa più solo sulle dimensioni grezze (il numero totale di parametri), ma sull'efficienza di come questi vengono chiamati in causa. L'abilità di processare un contesto immenso (fino a 1M di token) e di attivare capacità di Thinking Mode e uso di tool esterni rende Qwen 3.5 la scelta definitiva per i developer. Alibaba sta democratizzando la costruzione di agenti autonomi complessi, permettendo di eseguirli in locale con latenze minime e massima privacy.
Licenza Apache 2.0
Mantenendo il suo forte impegno verso l'ecosistema open source globale, il team di Alibaba ha rilasciato i pesi della serie Qwen 3.5 (incluso il 35B-A3B) sotto la licenza Apache 2.0.
Si tratta di una licenza estremamente permissiva che garantisce libertà quasi totale. È consentito l'uso commerciale gratuito, la modifica, la riproduzione e la distribuzione (anche di versioni derivate o fine-tunate) per entità di qualsiasi dimensione. Come standard per l'Apache 2.0, non ci sono vincoli sui ricavi dell'azienda (nessuna "soglia"), rendendo questo modello perfettamente sicuro per essere integrato direttamente nel cuore di prodotti enterprise senza preoccupazioni legali.