LFM2.5-8B-A1B: l'Assistente Personale On-Device firmato Liquid AI

LFM2.5-8B-A1B: l'Assistente Personale On-Device firmato Liquid AI
Condividi:

Liquid AI ha rilasciato LFM2.5-8B-A1B, un modello Mixture-of-Experts (MoE) con 8 miliardi di parametri totali e circa 1 miliardo di parametri attivi per token, progettato per l'esecuzione su hardware consumer. Il modello punta a ridefinire gli assistenti personali on-device, combinando tool calling, instruction following e basse percentuali di allucinazione in un unico pacchetto ottimizzato per laptop, smartphone e NPU.

Architettura e Formazione

Rispetto al predecessore LFM2-8B-A1B, le novità architetturali sono sostanziali. La finestra di contesto passa da 32K a 128K token, consentendo al modello di elaborare documenti lunghi e sostenere ragionamenti prolungati. Il vocabolario è stato espanso da 65K a 128K token, con una tokenizzazione più efficiente per le lingue non latine - l'italiano guadagna un +6.4%, il giapponese un +120.4% e l'hindi un +28.6%.

A differenza della versione precedente, LFM2.5-8B-A1B è un modello reasoning-only: adotta una catena di pensiero (chain-of-thought) per ogni risposta, il che spiega i miglioramenti significativi su matematica e agenti, ma anche la riduzione drastica delle allucinazioni.

La fase di pre-training è stata estesa, e il post-training ha integrato tecniche di reinforcement learning con una ricompensa basata su avg@k per penalizzare le allucinazioni senza sacrificare l'accuratezza.

Benchmark: Competitivo con Modelli Molto più Grandi

LFM2.5-8B-A1B compete con modelli densi e MoE di dimensioni molto superiori. Su instruction following è il migliore della sua classe, mentre su agentic tasks e matematica tallona modelli come Qwen3-30B-A3B e Gemma 4-26B.

Core Capabilities

Model Parametri AA-Omniscience Index Accuracy Non-Hallucination Rate IFEval
LFM2.5-8B-A1B 8B/A1B -24.70 8.67 63.47 91.84
Granite-4.0-H-Tiny 7B/A1B -75.50 9.37 6.38 82.23
Qwen3.5-4B 4B -51.53 17.20 16.99 87.80
Qwen3-30B-A3B-Thinking 30.5B/3.3B -51.31 18.80 13.87 90.82
Gemma-4-E2B-IT 5.1B -72 7.00 15.05 82.93
Gemma-4-E4B-IT 8B -50.67 8.10 36.06 87.74
Gemma-4-26B-A4B-IT 26B/4B -62.07 14.37 10.75 91.40

Il Non-Hallucination Rate al 63.47% è il dato più sorprendente: supera di gran lunga tutti i competitor, compresi modelli 10x più grandi, rendendo LFM2.5-8B-A1B ideale per applicazioni agentiche dove l'affidabilità è critica.

Instruction Following

Model Parametri IFBench Multi-IF
LFM2.5-8B-A1B 8B/A1B 56.47 79.93
Granite-4.0-H-Tiny 7B/A1B 21.28 59.00
Qwen3.5-4B 4B 50.38 67.43
Qwen3-30B-A3B-Thinking 30.5B/3.3B 51.11 79.04
Gemma-4-E2B-IT 5.1B 33.53 69.70
Gemma-4-E4B-IT 8B 39.48 77.58
Gemma-4-26B-A4B-IT 26B/4B 47.25 82.06

Matematica e Ragionamento

Model Parametri MATH500 AIME25
LFM2.5-8B-A1B 8B/A1B 88.76 42.53
Granite-4.0-H-Tiny 7B/A1B 59.20 4.93
Qwen3.5-4B 4B 80.76 54.28
Qwen3-30B-A3B-Thinking 30.5B/3.3B 86.48 71.67
Gemma-4-E2B-IT 5.1B 64.00 26
Gemma-4-E4B-IT 8B 65.00 34.33
Gemma-4-26B-A4B-IT 26B/4B 94.20 68.67

Tool Use e Workflow Agenti

Il punto di forza del modello emerge nei benchmark agentici. LFM2.5-8B-A1B domina Tau²-Bench Telecom con un sorprendente 88.07, un miglioramento di 74.47 punti rispetto al predecessore, e mostra progressi significativi anche in contesti retail (39.82) e tool calling strutturato (BFCLv3: 64.79, BFCLv4: 49.73).

Model BFCLv3 BFCLv4 Tau² Telecom Tau² Retail
LFM2.5-8B-A1B 64.79 49.73 88.07 39.82
LFM2-8B-A1B 45.07 25.52 13.60 7.02
Granite-4.0-H-Tiny 56.89 28.52 16.67 18.42
Qwen3.5-4B 71.06 54.01 87.72 71.93
Qwen3-30B-A3B-Thinking 73.39 50.53 21.93 56.14
Gemma-4-E2B-IT 56.44 31.91 22.37 18.95
Gemma-4-E4B-IT 57.31 33.92 26.75 42.11
Gemma-4-26B-A4B-IT 68.87 55.87 42.11 55.26

Liquid AI ha reso disponibile anche LocalCowork, una demo desktop open-source che ora gira su LFM2.5-8B-A1B e mostra come un loop completo "ask → propose → confirm → run → repeat" avvenga in meno di un secondo per dispatch, con audit trail completo e dati mai trasmessi al cloud.

Inference: Il più Veloce della sua Classe

CPU. Su hardware consumer, LFM2.5-8B-A1B è il modello più veloce testato in fase di prefill e decode. Con llama.cpp raggiunge 253 token/s su Apple M5 Max e 146 token/s su AMD Ryzen AI Max+ 395, mantenendo un footprint di memoria inferiore a 6 GB. Su smartphone si attesta a circa 30 token/s, sufficienti per un assistente personale reattivo e completamente privato.

GPU. Con SGLang 0.5.12 su una singola H100 SXM5, il modello raggiunge un throughput di picco di 18.5K token/s in BF16 ad alta concorrenza, equivalenti a oltre 1.6 miliardi di token al giorno.

Ecosistema e Disponibilità

Il modello è open-weight e supportato day-one da tutti i principali framework:

  • LEAP - Piattaforma Edge AI di Liquid per deployment iOS e Android
  • llama.cpp - Checkpoint GGUF per inferenza efficiente su CPU
  • MLX - Inferenza ottimizzata per Apple Silicon
  • vLLM / SGLang - Serving GPU accelerato per throughput produttivo
  • ONNX - Inferenza cross-platform

Il modello è disponibile su Hugging Face sia nella versione Base che post-trained, e sul Playground ufficiale. La licenza è la LFM Open License v1.0, che consente uso gratuito per entità con fatturato inferiore a 10 milioni di dollari e per organizzazioni non-profit.

La documentazione completa per esecuzione e fine-tuning locale è disponibile su docs.liquid.ai.

Mauro Sciancalepore - Notizie AI, Deep Learning e Ricerca

Resta aggiornato sulle ultime notizie di Intelligenza Artificiale e Deep Learning. Approfondimenti completi sulla ricerca e stato dell'arte.

© 2026 mauroscia.it
Tutti i diritti riservati.