LFM2.5-350M, il nuovo foundation model per l'Edge Computing

28T tokens

1 aprile 2026

Liquid AI ha reso disponibili LFM2.5-350M e la sua variante Base, modelli open-weight da 350 milioni di parametri. Questa release punta a ottimizzare le pipeline di on-device AI, fornendo una soluzione compatta per elaborazioni locali e dispositivi con risorse limitate, mantenendo la compatibilità con i principali engine di inference.

Architettura e Pre-training

Basato sull'architettura LFM2, il modello è stato sottoposto a una fase di pre-training su un dataset di 28T tokens, un incremento sostanziale rispetto ai 10T utilizzati per la versione precedente.

La fase di post-training integra tecniche di reinforcement learning "su larga scala". Queste ottimizzazioni rendono l'architettura particolarmente adatta per task di tool use, data extraction e generazione di structured outputs. I ricercatori sconsigliano esplicitamente l'impiego del modello per ragionamenti matematici, coding o creative writing.

Benchmark sulle Core Capabilities

Le valutazioni documentano un miglioramento generazionale rispetto al predecessore, in particolar modo sull'instruction following (il punteggio IFBench passa da 18.20 a 40.69). Di seguito il confronto con modelli di dimensioni simili o architetture alternative:

Model	GPQA Diamond	MMLU-Pro	IFEval	IFBench	Multi-IF
LFM2.5-350M	30.64	20.01	76.96	40.69	44.92
LFM2-350M	27.58	19.29	64.96	18.20	32.92
Granite 4.0-H-350M	22.32	13.14	61.27	17.22	28.70
Qwen3.5-0.8B (Instruct)	27.41	37.42	59.94	22.87	41.68
Gemma 3 1B IT	23.89	14.04	63.49	20.33	44.25

Data Extraction e Tool Use

LFM2.5-350M è stato progettato per supportare pipeline agentiche leggere. I test su task applicati mostrano un aumento rilevante in metriche chiave per l'estrazione dati, come CaseReportBench (passato da 11.67 a 32.45), e per le chiamate a funzioni esterne, come BFCLv3 (da 22.95 a 44.11).

Model	CaseReportBench	BFCLv3	BFCLv4	𝜏²-Bench Telecom	𝜏²-Bench Retail
LFM2.5-350M	32.45	44.11	21.86	18.86	17.84
LFM2-350M	11.67	22.95	12.29	10.82	5.56
Granite 4.0-H-350M	12.44	43.07	13.28	13.74	6.14
Qwen3.5-0.8B (Instruct)	13.83	35.08	18.70	12.57	6.14
Gemma 3 1B IT	2.28	16.61	7.17	9.36	6.43

Ecosistema e Partnership Hardware

Il modello garantisce un supporto day-one per numerosi framework di inference, tra cui LEAP, llama.cpp (tramite file GGUF), MLX, vLLM, SGLang, ONNX e OpenVINO.

Le partnership hardware assicurano ottimizzazioni native su piattaforme eterogenee. Il supporto copre i processori AMD Ryzen AI, le NPU Qualcomm Snapdragon (grazie a Zetic Melange e RunAnywhere), l'ecosistema Intel via OpenVINO e l'hardware Apple Silicon sfruttando l'engine Mirai.

Sul versante software, Distil Labs ha dimostrato come il fine-tuning del modello per workflow agentici consenta di superare il 95% di accuratezza nel tool-calling. LM Studio facilita inoltre il deployment locale tramite il demone headless llmster.

Potete trovare la model card completa di LFM2.5-350M su HuggingFace.

Metriche di Inference e Throughput

In ambienti server ad alta concorrenza, testati con SGLang 0.5.9 su una singola GPU NVIDIA H100 SXM5, il modello tocca un throughput di picco di 40.4K output tokens per second in precisione BF16. Questo valore si traduce in una capacità di elaborazione superiore a 3.5 miliardi di token giornalieri.

In scenari edge, l'integrazione con il Cactus Engine ottimizza l'allocazione della RAM per l'esecuzione su hardware economico. Di seguito i benchmark di velocità registrati con 1K prefill tokens e 100 decode tokens:

Device	Processor	Framework (Precision)	Prefill (tok/s)	Decode (tok/s)	Peak Memory
Apple M5 Max	GPU	Mirai (bf 16)	44.8K	564	1 GB
AMD Ryzen™ AI Max 395+	CPU	llama.cpp (Q4)	2.9K	313	434 MB
Apple A18 Pro	GPU	Mirai (bf 16)	1,953	73	945 MB
Snapdragon® 8 Elite (S25 Ultra)	GPU	RunAnywhere (Q4)	5.3K	62	81 MB
Snapdragon® 8 Elite (S25 Ultra)	NPU	RunAnywhere (Q4)	2.8K	15	169 MB
Raspberry Pi 5	CPU	Cactus Engine (int 8)	200	30	300 MB

A presto!