LFM2.5-8B-A1B: l'Assistente Personale On-Device firmato Liquid AI

Liquid AI ha rilasciato LFM2.5-8B-A1B, un modello Mixture-of-Experts (MoE) con 8 miliardi di parametri totali e circa 1 miliardo di parametri attivi per token, progettato per l'esecuzione su hardware consumer. Il modello punta a ridefinire gli assistenti personali on-device, combinando tool calling, instruction following e basse percentuali di allucinazione in un unico pacchetto ottimizzato per laptop, smartphone e NPU.
Architettura e Formazione
Rispetto al predecessore LFM2-8B-A1B, le novità architetturali sono sostanziali. La finestra di contesto passa da 32K a 128K token, consentendo al modello di elaborare documenti lunghi e sostenere ragionamenti prolungati. Il vocabolario è stato espanso da 65K a 128K token, con una tokenizzazione più efficiente per le lingue non latine - l'italiano guadagna un +6.4%, il giapponese un +120.4% e l'hindi un +28.6%.
A differenza della versione precedente, LFM2.5-8B-A1B è un modello reasoning-only: adotta una catena di pensiero (chain-of-thought) per ogni risposta, il che spiega i miglioramenti significativi su matematica e agenti, ma anche la riduzione drastica delle allucinazioni.
La fase di pre-training è stata estesa, e il post-training ha integrato tecniche di reinforcement learning con una ricompensa basata su avg@k per penalizzare le allucinazioni senza sacrificare l'accuratezza.
Benchmark: Competitivo con Modelli Molto più Grandi
LFM2.5-8B-A1B compete con modelli densi e MoE di dimensioni molto superiori. Su instruction following è il migliore della sua classe, mentre su agentic tasks e matematica tallona modelli come Qwen3-30B-A3B e Gemma 4-26B.
Core Capabilities
| Model | Parametri | AA-Omniscience Index | Accuracy | Non-Hallucination Rate | IFEval |
|---|---|---|---|---|---|
| LFM2.5-8B-A1B | 8B/A1B | -24.70 | 8.67 | 63.47 | 91.84 |
| Granite-4.0-H-Tiny | 7B/A1B | -75.50 | 9.37 | 6.38 | 82.23 |
| Qwen3.5-4B | 4B | -51.53 | 17.20 | 16.99 | 87.80 |
| Qwen3-30B-A3B-Thinking | 30.5B/3.3B | -51.31 | 18.80 | 13.87 | 90.82 |
| Gemma-4-E2B-IT | 5.1B | -72 | 7.00 | 15.05 | 82.93 |
| Gemma-4-E4B-IT | 8B | -50.67 | 8.10 | 36.06 | 87.74 |
| Gemma-4-26B-A4B-IT | 26B/4B | -62.07 | 14.37 | 10.75 | 91.40 |
Il Non-Hallucination Rate al 63.47% è il dato più sorprendente: supera di gran lunga tutti i competitor, compresi modelli 10x più grandi, rendendo LFM2.5-8B-A1B ideale per applicazioni agentiche dove l'affidabilità è critica.
Instruction Following
| Model | Parametri | IFBench | Multi-IF |
|---|---|---|---|
| LFM2.5-8B-A1B | 8B/A1B | 56.47 | 79.93 |
| Granite-4.0-H-Tiny | 7B/A1B | 21.28 | 59.00 |
| Qwen3.5-4B | 4B | 50.38 | 67.43 |
| Qwen3-30B-A3B-Thinking | 30.5B/3.3B | 51.11 | 79.04 |
| Gemma-4-E2B-IT | 5.1B | 33.53 | 69.70 |
| Gemma-4-E4B-IT | 8B | 39.48 | 77.58 |
| Gemma-4-26B-A4B-IT | 26B/4B | 47.25 | 82.06 |
Matematica e Ragionamento
| Model | Parametri | MATH500 | AIME25 |
|---|---|---|---|
| LFM2.5-8B-A1B | 8B/A1B | 88.76 | 42.53 |
| Granite-4.0-H-Tiny | 7B/A1B | 59.20 | 4.93 |
| Qwen3.5-4B | 4B | 80.76 | 54.28 |
| Qwen3-30B-A3B-Thinking | 30.5B/3.3B | 86.48 | 71.67 |
| Gemma-4-E2B-IT | 5.1B | 64.00 | 26 |
| Gemma-4-E4B-IT | 8B | 65.00 | 34.33 |
| Gemma-4-26B-A4B-IT | 26B/4B | 94.20 | 68.67 |
Tool Use e Workflow Agenti
Il punto di forza del modello emerge nei benchmark agentici. LFM2.5-8B-A1B domina Tau²-Bench Telecom con un sorprendente 88.07, un miglioramento di 74.47 punti rispetto al predecessore, e mostra progressi significativi anche in contesti retail (39.82) e tool calling strutturato (BFCLv3: 64.79, BFCLv4: 49.73).
| Model | BFCLv3 | BFCLv4 | Tau² Telecom | Tau² Retail |
|---|---|---|---|---|
| LFM2.5-8B-A1B | 64.79 | 49.73 | 88.07 | 39.82 |
| LFM2-8B-A1B | 45.07 | 25.52 | 13.60 | 7.02 |
| Granite-4.0-H-Tiny | 56.89 | 28.52 | 16.67 | 18.42 |
| Qwen3.5-4B | 71.06 | 54.01 | 87.72 | 71.93 |
| Qwen3-30B-A3B-Thinking | 73.39 | 50.53 | 21.93 | 56.14 |
| Gemma-4-E2B-IT | 56.44 | 31.91 | 22.37 | 18.95 |
| Gemma-4-E4B-IT | 57.31 | 33.92 | 26.75 | 42.11 |
| Gemma-4-26B-A4B-IT | 68.87 | 55.87 | 42.11 | 55.26 |
Liquid AI ha reso disponibile anche LocalCowork, una demo desktop open-source che ora gira su LFM2.5-8B-A1B e mostra come un loop completo "ask → propose → confirm → run → repeat" avvenga in meno di un secondo per dispatch, con audit trail completo e dati mai trasmessi al cloud.
Inference: Il più Veloce della sua Classe
CPU. Su hardware consumer, LFM2.5-8B-A1B è il modello più veloce testato in fase di prefill e decode. Con llama.cpp raggiunge 253 token/s su Apple M5 Max e 146 token/s su AMD Ryzen AI Max+ 395, mantenendo un footprint di memoria inferiore a 6 GB. Su smartphone si attesta a circa 30 token/s, sufficienti per un assistente personale reattivo e completamente privato.
GPU. Con SGLang 0.5.12 su una singola H100 SXM5, il modello raggiunge un throughput di picco di 18.5K token/s in BF16 ad alta concorrenza, equivalenti a oltre 1.6 miliardi di token al giorno.
Ecosistema e Disponibilità
Il modello è open-weight e supportato day-one da tutti i principali framework:
- LEAP - Piattaforma Edge AI di Liquid per deployment iOS e Android
- llama.cpp - Checkpoint GGUF per inferenza efficiente su CPU
- MLX - Inferenza ottimizzata per Apple Silicon
- vLLM / SGLang - Serving GPU accelerato per throughput produttivo
- ONNX - Inferenza cross-platform
Il modello è disponibile su Hugging Face sia nella versione Base che post-trained, e sul Playground ufficiale. La licenza è la LFM Open License v1.0, che consente uso gratuito per entità con fatturato inferiore a 10 milioni di dollari e per organizzazioni non-profit.
La documentazione completa per esecuzione e fine-tuning locale è disponibile su docs.liquid.ai.