LFM2.5-8B-A1B: l'Assistente Personale On-Device firmato Liquid AI

30 maggio 2026

Liquid AI ha rilasciato LFM2.5-8B-A1B, un modello Mixture-of-Experts (MoE) con 8 miliardi di parametri totali e circa 1 miliardo di parametri attivi per token, progettato per l'esecuzione su hardware consumer. Il modello punta a ridefinire gli assistenti personali on-device, combinando tool calling, instruction following e basse percentuali di allucinazione in un unico pacchetto ottimizzato per laptop, smartphone e NPU.

Architettura

Rispetto al predecessore LFM2-8B-A1B, le novità architetturali sono sostanziali. La finestra di contesto passa da 32K a 128K token, consentendo al modello di elaborare documenti lunghi e sostenere ragionamenti prolungati. Il vocabolario è stato espanso da 65K a 128K token, con una tokenizzazione più efficiente per le lingue non latine - l'italiano guadagna un +6.4%, il giapponese un +120.4% e l'hindi un +28.6%.

A differenza della versione precedente, LFM2.5-8B-A1B è un modello reasoning-only: adotta una catena di pensiero (chain-of-thought) per ogni risposta, il che spiega i miglioramenti significativi su matematica e agenti, ma anche la riduzione drastica delle allucinazioni.

La fase di pre-training è stata estesa, e il post-training ha integrato tecniche di reinforcement learning con una ricompensa basata su avg@k per penalizzare le allucinazioni senza sacrificare l'accuratezza.

Benchmark: Competitivo con Modelli Molto più Grandi

LFM2.5-8B-A1B compete con modelli densi e MoE di dimensioni molto superiori. Su instruction following è il migliore della sua classe, mentre su agentic tasks e matematica tallona modelli come Qwen3-30B-A3B e Gemma 4-26B.

Core Capabilities

Model	Parametri	AA-Omniscience Index	Accuracy	Non-Hallucination Rate	IFEval
LFM2.5-8B-A1B	8B/A1B	-24.70	8.67	63.47	91.84
Granite-4.0-H-Tiny	7B/A1B	-75.50	9.37	6.38	82.23
Qwen3.5-4B	4B	-51.53	17.20	16.99	87.80
Qwen3-30B-A3B-Thinking	30.5B/3.3B	-51.31	18.80	13.87	90.82
Gemma-4-E2B-IT	5.1B	-72	7.00	15.05	82.93
Gemma-4-E4B-IT	8B	-50.67	8.10	36.06	87.74
Gemma-4-26B-A4B-IT	26B/4B	-62.07	14.37	10.75	91.40

Il Non-Hallucination Rate al 63.47% è il dato più sorprendente: supera di gran lunga tutti i competitor, compresi modelli 10x più grandi, rendendo LFM2.5-8B-A1B ideale per applicazioni agentiche dove l'affidabilità è critica.

Instruction Following

Model	Parametri	IFBench	Multi-IF
LFM2.5-8B-A1B	8B/A1B	56.47	79.93
Granite-4.0-H-Tiny	7B/A1B	21.28	59.00
Qwen3.5-4B	4B	50.38	67.43
Qwen3-30B-A3B-Thinking	30.5B/3.3B	51.11	79.04
Gemma-4-E2B-IT	5.1B	33.53	69.70
Gemma-4-E4B-IT	8B	39.48	77.58
Gemma-4-26B-A4B-IT	26B/4B	47.25	82.06

Matematica e Ragionamento

Model	Parametri	MATH500	AIME25
LFM2.5-8B-A1B	8B/A1B	88.76	42.53
Granite-4.0-H-Tiny	7B/A1B	59.20	4.93
Qwen3.5-4B	4B	80.76	54.28
Qwen3-30B-A3B-Thinking	30.5B/3.3B	86.48	71.67
Gemma-4-E2B-IT	5.1B	64.00	26
Gemma-4-E4B-IT	8B	65.00	34.33
Gemma-4-26B-A4B-IT	26B/4B	94.20	68.67

Tool Use e Workflow Agentici

Il punto di forza del modello emerge nei benchmark agentici. LFM2.5-8B-A1B domina Tau²-Bench Telecom con un sorprendente 88.07, un miglioramento di 74.47 punti rispetto al predecessore, e mostra progressi significativi anche in contesti retail (39.82) e tool calling strutturato (BFCLv3: 64.79, BFCLv4: 49.73).

Model	BFCLv3	BFCLv4	Tau² Telecom	Tau² Retail
LFM2.5-8B-A1B	64.79	49.73	88.07	39.82
LFM2-8B-A1B	45.07	25.52	13.60	7.02
Granite-4.0-H-Tiny	56.89	28.52	16.67	18.42
Qwen3.5-4B	71.06	54.01	87.72	71.93
Qwen3-30B-A3B-Thinking	73.39	50.53	21.93	56.14
Gemma-4-E2B-IT	56.44	31.91	22.37	18.95
Gemma-4-E4B-IT	57.31	33.92	26.75	42.11
Gemma-4-26B-A4B-IT	68.87	55.87	42.11	55.26

Liquid AI ha reso disponibile anche LocalCowork, una demo desktop open-source che ora gira su LFM2.5-8B-A1B e mostra come un loop completo "ask → propose → confirm → run → repeat" avvenga in meno di un secondo per dispatch, con audit trail completo e dati mai trasmessi al cloud.

Inference: Il più Veloce della sua Classe

CPU. Su hardware consumer, LFM2.5-8B-A1B è il modello più veloce testato in fase di prefill e decode. Con llama.cpp raggiunge 253 token/s su Apple M5 Max e 146 token/s su AMD Ryzen AI Max+ 395, mantenendo un footprint di memoria inferiore a 6 GB. Su smartphone si attesta a circa 30 token/s, sufficienti per un assistente personale reattivo e completamente privato.

GPU. Con SGLang 0.5.12 su una singola H100 SXM5, il modello raggiunge un throughput di picco di 18.5K token/s in BF16 ad alta concorrenza, equivalenti a oltre 1.6 miliardi di token al giorno.

Ecosistema e Disponibilità

Il modello è open-weight e supportato day-one da tutti i principali framework:

LEAP - Piattaforma Edge AI di Liquid per deployment iOS e Android
llama.cpp - Checkpoint GGUF per inferenza efficiente su CPU
MLX - Inferenza ottimizzata per Apple Silicon
vLLM / SGLang - Serving GPU accelerato per throughput produttivo
ONNX - Inferenza cross-platform

Il modello è disponibile su Hugging Face sia nella versione Base che post-trained, e sul Playground ufficiale. La licenza è la LFM Open License v1.0, che consente uso gratuito per entità con fatturato inferiore a 10 milioni di dollari e per organizzazioni non-profit.

La documentazione completa per esecuzione e fine-tuning locale è disponibile su docs.liquid.ai.