Che cos’è LFM2: guida a un foundation model pensato per girare sul device
LFM2 è la seconda generazione dei Liquid Foundation Models sviluppati da Liquid AI, una famiglia di modelli generativi progettati esplicitamente per girare on-device: smartphone, laptop, sistemi embedded, CPU e NPU di fascia consumer, non solo grandi GPU in datacenter.
A differenza dei classici modelli transformer da decine di miliardi di parametri, LFM2 si concentra su una fascia “small” ma molto curata:
- modelli densi da circa 350M, 700M, 1.2B, 2.6B parametri, tutti con context window di 32K token
- un modello Mixture-of-Experts (MoE) da 8.3B parametri totali ma solo 1.5B attivi per token, pensato per avere qualità da modello medio-grande con costi di calcolo molto più bassi
Su questa spina dorsale linguistica vengono poi costruite varianti multimodali e specializzate:
- LFM2-VL, modelli vision-language per testo+immagini
- LFM2-Audio, un modello audio-text-audio per ASR, TTS e voice assistant in tempo reale
- LFM2-ColBERT, una variante per information retrieval in stile ColBERT, ottimizzata per ricerca monolingue e multilingue
Tutti i modelli LFM2 vengono rilasciati con pesi open e pacchetti di deploy pronti per Transformers, llama.cpp, ExecuTorch e vLLM, inclusi profili di quantizzazione pensati per CPU e SoC mobili.
Perché LFM2 è interessante
Se ti interessa “come funziona LFM2” e cerchi una “guida a LFM2” per capire se può funzionare sui tuoi device, il punto chiave è questo:
LFM2 è uno dei primi tentativi davvero sistematici di progettare un foundation model edge-first, cioè partendo dai vincoli del device (latency, memoria, consumo) e non adattando a posteriori un grande modello server-side. L’architettura, la scelta dei dati, il training recipe e il post-training sono co-progettati con misure di time-to-first-token, latency p50/p95 e peak memory su hardware reale, inclusi telefoni Android e CPU laptop.
Questo approccio permette di:
- ottenere latenze molto basse anche in quantizzazione Q4 su CPU
- restare entro budget di RAM tipici di smartphone moderni
- mantenere una qualità competitiva su benchmark difficili (MMLU, GSM8K, IFEval, ecc.) rispetto ad altri small models open-source come Qwen3, Gemma 3, Llama 3.2, Granite e SmolLM3.
Per esempio, LFM2-2.6B raggiunge circa 64% di MMLU, oltre 82% su GSM8K e più del 79% su IFEval, rimanendo entro la classe “small model” e mantenendo throughput molto elevato su smartphone e laptop.
La variante LFM2-8B-A1B, pur avendo solo 1.5B parametri attivi, porta ancora più in alto i risultati su matematica e instruction following, avvicinandosi a modelli server più grandi pur restando compatibile con device edge.
Sul lato multimodale, LFM2-VL-3B è competitivo o superiore a modelli come Qwen2.5-VL-3B e altri VLM sotto i 4B parametri su benchmark di visione, OCR e multimodal reasoning, mantenendo allo stesso tempo ottime capacità linguistiche.
Con LFM2-Audio, Liquid AI dimostra infine che si può avere un modello unico che fa chat vocale, ASR e TTS con qualità vicina a modelli più grandi come Qwen2.5-Omni-3B e Whisper-large-v3-turbo, ma con latenza e footprint compatibili con l’on-device.
Link utili: codice, paper, dataset
Per chi vuole esplorare direttamente codice e modelli, ecco i riferimenti principali:
leap-finetune (repo ufficiale di fine-tuning per LFM2), LFM2 Technical Report su arXiv (2511.23404), Dataset di training: non disponibile come dataset pubblico unificato (la miscela di dati è descritta nel paper ma non viene rilasciata come collezione scaricabile).
Indice
- Che cos’è LFM2: guida a un foundation model pensato per girare sul device
- Come funziona LFM2: architettura ibrida e training recipe spiegate passo per passo
- Architettura ibrida edge-first
- Varianti dense e Mixture-of-Experts
- Tokenizer e supporto multilingue
- Pre-training multi-stage con decoupled Top-K distillation
- Post-training in tre stadi: SFT, preference alignment, model merging
- Estensioni multimodali: LFM2-VL
- Estensioni audio: LFM2-Audio
- Retrieval: LFM2-ColBERT
- Risultati LFM2: cosa ci dicono i benchmark su qualità e velocità
- Concetti chiave da capire per leggere bene la LFM2 Technical Report
- Quiz su LFM2: metti alla prova la tua comprensione
- Perché LFM2 è definito un modello edge-first?
- Quali sono i componenti principali del backbone LFM2?
- Che problema risolve la decoupled Top-K knowledge distillation?
- In cosa consiste il post-training a tre stadi di LFM2?
- A cosa serve la famiglia LFM2-VL?
- Come funziona a grandi linee LFM2-Audio?
- Quando ha senso usare un modello come LFM2-350M e quando un LFM2-2.6B o LFM2-8B-A1B?
- Domanda 8: Cosa significa che LFM2 ha pesi open e perché è importante?
- Studi correlati e modelli affini a LFM2: cosa leggere dopo
Come funziona LFM2: architettura ibrida e training recipe spiegate passo per passo
Per capire davvero come funziona LFM2, bisogna partire da tre elementi: architettura ibrida, pre-training con knowledge distillation Top-K e post-training in tre stadi, a cui si aggiungono i recipe specifici per multimodalità e audio.
Architettura ibrida edge-first
LFM2 non è un semplice transformer standard. Liquid AI utilizza una hardware-in-the-loop architecture search: genera molteplici varianti di architettura, le addestra su un dataset di riferimento e misura in automatico qualità, latency e memoria su device reali (smartphone Snapdragon e CPU Ryzen) usando gli stessi stack di deploy che useranno in produzione (ExecuTorch, llama.cpp, vLLM).
Nel loro spazio di ricerca includono:
- blocchi con short convolution, sliding-window attention, varianti di linear attention e state space models tipo S4, Liquid-S4, Mamba, ecc.
- blocchi di grouped-query attention (GQA) con QK-norm per l’attenzione globale
- MLP SwiGLU con diversa espansione
- layout diversi di interleaving tra questi blocchi, con e senza opzioni MoE
La cosa interessante, e controintuitiva, è il risultato: sotto vincoli realistici di latency e memoria edge, la ricerca trova che basta un ibrido minimo:
- la maggior parte dei layer sono gated short convolution blocks, operatori di convoluzione 1D locale con gating che mescolano token vicini molto velocemente e con ottimo uso della cache CPU
- solo una piccola frazione di layer utilizza GQA, che fornisce l’attenzione globale necessaria per recupero di contesto e ragionamento a lungo raggio
Secondo gli autori, aggiungere altri operatori “alla moda” (linear attention, SSM complessi, extra convoluzioni) non migliora il trade-off qualità-latency-memoria, e anzi spesso peggiora i tempi o l’uso di memoria senza dare benefici stabili su downstream tasks.
In pratica, per “come funziona LFM2” a livello di backbone possiamo pensarlo così:
- le gated short convolution gestiscono la maggior parte del lavoro di mescolamento locale, economico e parallelizzabile
- pochi layer di GQA fanno da “ponti lunghi” che collegano parti lontane della sequenza e curano retrieval e ragionamento globale
- MLP SwiGLU completano il blocco, come in molti moderni transformer
Questa struttura è mantenuta identica nei modelli densi e nel backbone del modello MoE.
Varianti dense e Mixture-of-Experts
Le varianti dense (350M-2.6B) condividono lo stesso tipo di blocchi con diversa profondità e ampiezza, tutte con context window di 32K token. Il modello LFM2-8B-A1B estende questo backbone sostituendo gran parte delle MLP con MoE layer: 32 esperti per layer, di cui solo pochi (Top-k) vengono attivati per ogni token, con un router a base di sigmoid e bias per bilanciare il carico tra esperti.
Lo scopo è chiaro: il modello ha abbastanza capacità totale per imparare molte competenze specializzate, ma ogni token paga il costo computazionale di soli 1.5B parametri attivi. Da qui l’idea di “qualità da 3-4B con costo da ~1.5B”.
Tokenizer e supporto multilingue
LFM2 utilizza un byte-level BPE tokenizer con vocabolario da 65.536 token, addestrato sulla stessa miscela di dati del pre-training. La costruzione del tokenizer è esplicitamente ottimizzata per inglese, giapponese, arabo, coreano, spagnolo, francese e tedesco, con supporto aggiuntivo per cinese, italiano e portoghese, includendo anche JSON e codice per migliorare l’efficienza su formati strutturati.
Sono previsti token speciali per:
- fill-in-the-middle (FIM)
- tool / function calling
- template di chat in stile ChatML
Questo rende LFM2 pronto per agenti, tool-calling e chat multi-turn già a livello di base model.
Pre-training multi-stage con decoupled Top-K distillation
Il pre-training è pensato per piccoli modelli ma con un budget di token comunque elevato:
- modelli densi: circa 10T token a context 4.096, seguiti da 1T token addizionali di mid-training a 32K su dati di qualità più alta e naturalmente long-context
- modello MoE: 12T + 1T con recipe analogo
La composizione dei dati per i modelli densi è, in prima approssimazione:
- 75% testo inglese
- 20% testo multilingue
- 5% codice
Per il modello MoE, aumenta la quota di codice (circa 15%), mantenendo comunque una forte componente multilingue.
Durante il pre-training, LFM2 non usa solo la classica next-token cross-entropy. Usa anche una forma di knowledge distillation da un teacher interno, LFM1-7B, ma in modo particolare: decoupled, tempered Top-K distillation.
L’idea, semplificando e senza formule, è questa:
- il teacher per ogni token produce una distribuzione sulle possibili next token, ma per ridurre banda e storage si considerano solo le Top-K opzioni più probabili
- se si applicasse direttamente una KL “normale” su questa distribuzione troncata, specialmente con temperature scaling, si rischierebbero instabilità perché si perde informazione sulla “coda” della distribuzione (support mismatch)
- gli autori quindi separano il problema in due parti:
- quanta probabilità totale il teacher assegna al set Top-K
- come distribuisce questa probabilità all’interno del Top-K
- il modello studente viene addestrato prima ad allineare la massa totale sul Top-K e poi la forma relativa all’interno del Top-K, applicando temperatura solo alla seconda parte
In questo modo, LFM2 riesce a sfruttare il segnale “soft” del teacher usando solo poche logit per token, evitando instabilità numeriche e problemi di support mismatch, e combinando il tutto con la classica cross-entropy su label dure.
Post-training in tre stadi: SFT, preference alignment, model merging
Dopo il pre-training, ogni checkpoint LFM2 passa attraverso un post-training a tre fasi:
Supervised Fine-Tuning (SFT)
In questa fase il modello impara il chat template e un insieme ampio di abilità “di base” per l’assistente: seguire istruzioni, rispondere in stile conversazionale, fare RAG, usare tool, risolvere problemi di matematica. Il corpus SFT include circa 5.39M esempi per i modelli densi e oltre 9M per il modello MoE, integrando 67-79 sorgenti tra open source, dati licenziati e generazioni sintetiche, con integrazione sistematica di esempi multilingue in quasi tutte le categorie.Preference Alignment
Qui si usano dati di preferenza (offline, inclusi esempi on-policy generati dal modello SFT) per eseguire un allineamento stile preference optimization, cioè insegnare al modello non solo a produrre risposte corrette, ma anche a preferire quelle più utili, sicure e allineate alle linee guida. Nel paper si parla di dataset “off-policy” e componenti specifiche per questo passaggio, ma concettualmente è una forma di RLHF / DPO-like adattata ai piccoli modelli.Model Merging
Alla fine vengono combinati più modelli specializzati (per esempio modelli ottimizzati per matematica, RAG, tool calling, ecc.) attraverso diverse tecniche di model merging: model soup, task arithmetic, TIES, DARE, DELLA e varianti. L’obiettivo è incorporare competenze complementari in un unico checkpoint finale senza dover rifare da zero un fine-tuning multi-task gigantesco.
Estensioni multimodali: LFM2-VL
Per i modelli vision-language LFM2-VL, la ricetta è simile ma con qualche ingrediente in più:
- la vision backbone è un SigLIP2 nella variante NaFlex, capace di gestire immagini a risoluzione variabile
- un connettore leggero basato su PixelUnshuffle + MLP riduce il numero di token visivi di un fattore 4 e li proietta nello spazio dei token linguistici LFM2, così da avere un’unica sequenza di token per testo e immagine
Il training avviene in tre fasi:
- connector pre-training su un corpus di captioning ben allineato
- multimodal mid-training, dove testo e immagini vengono mescolati con una schedule di data annealing: si parte da 100% testo e si scende fino a circa 30% testo e 70% multimodale, per poi proseguire a lungo a context 32K
- joint multimodal SFT, con dataset per VQA, OCR, multi-image reasoning, conversational VLM, ecc., inclusa una porzione significativa di dati multilingue (anche in italiano) per le varianti più grandi come LFM2-VL-3B
Estensioni audio: LFM2-Audio
LFM2-Audio-1.5B prende il backbone linguistico LFM2-1.2B e lo estende con due rami dedicati all’audio:
- un audio encoder che trasforma waveforms raw in log-mel features, poi in embedding continui con una pila di convoluzioni + FastConformer, prima di proiettarli nello spazio di LFM2
- un percorso di audio decoder che non genera waveforms direttamente ma codici discreti RVQ (Mimi), con un RQ-Transformer più piccolo che genera i codici condizionato sull’output del backbone, e un detokenizer stile Vocos che converte i codici in audio 24kHz in tempo quasi reale
Questa separazione tra input continuo e output discreto permette di mantenere rappresentazioni ricche per ASR e comprensione, evitando al tempo stesso overhead e artefatti tipici di alcuni schemi di tokenizzazione audio.
Retrieval: LFM2-ColBERT
Per il retrieval, LFM2-ColBERT-350M aggiunge una testa specifica sopra il backbone LFM2-350M, adottando il paradigma late-interaction di ColBERT: query e documenti sono codificati in vettori per token, pre-indicizzati, e la similarità viene calcolata con una max-similarity su tutte le coppie di token rilevanti, preservando molta espressività rispetto ai bi-encoder classici ma con costi molto più bassi dei cross-encoder.
Il training usa knowledge distillation da un cross-encoder teacher, e i risultati mostrano un chiaro vantaggio sulla copertura multilingue rispetto a baseline come GTE-ModernColBERT-v1.
Risultati LFM2: cosa ci dicono i benchmark su qualità e velocità
Una guida completa a LFM2 non può evitare la domanda più pratica: “ok, ma quanto bene va rispetto agli altri modelli small open-source?”
Testo: knowledge, instruction following, matematica, multilingue
La Technical Report presenta un’ampia tabella di risultati per i modelli da 350M a 8B, confrontati con Qwen3, Gemma 3, Llama 3.2, SmolLM3, Granite e altri.
A livello qualitativo:
- nel range 350M-1.2B, i modelli LFM2 tendono a superare nettamente modelli di grandezza paragonabile su benchmark di knowledge (MMLU), instruction following (IFEval, IFBench, Multi-IF) e math reasoning (GSM8K, GSMPlus, MATH), spesso con meno token di training rispetto ad alcuni concorrenti
- LFM2-1.2B, ad esempio, ottiene circa 55% su MMLU, 58% su GSM8K e oltre 74% su IFEval, superando corrispondenti modelli 1B-1.7B di altre famiglie in diversi setting di benchmark
Nei modelli più grandi:
- LFM2-2.6B raggiunge ~64.4% su MMLU, più di 82% su GSM8K e oltre 60% su GSMPlus, con ottimi punteggi anche su MATH 500 e MATH Level 5
- LFM2-8B-A1B spinge ancora oltre, con punteggi oltre 84% su GSM8K, ~75% su MATH 500 e oltre 62% su MATH Level 5, pur avendo solo 1.5B parametri attivi per token
Sul fronte multilingue, metriche come MMMLU e MGSM mostrano che LFM2 mantiene una buona frazione delle sue performance inglesi anche in altre lingue, grazie alla strategia di training che integra i campioni multilingue in quasi tutte le categorie di dati, invece di trattarli come un blocco separato.
Velocità su smartphone e laptop
Una delle parti più importanti della LFM2 guida completa è capire le prestazioni su hardware “normale”.
Su uno smartphone Samsung Galaxy S25 con SoC Snapdragon 8 Elite, usando llama.cpp in quantizzazione Q4_0, LFM2-350M supera i 1000 token/s di prefill su prompt da 1K token e mantiene throughput elevato anche a 4K, risultando fino a circa 2 volte più veloce di baseline come Granite-4.0-350M nelle stesse condizioni.
Modelli come LFM2-700M e LFM2-1.2B battono sistematicamente Qwen3-0.6B, Qwen3-1.7B, Llama-3.2-1B e altre varianti in termini di token/s sia in prefill che in decode, pur avendo qualità comparabile o migliore sui benchmark linguistici.
Su un laptop con AMD Ryzen AI 9 HX 370, le differenze diventano ancora più evidenti: LFM2-350M supera i 7.500 token/s di prefill su prompt da 1K, mentre modelli concorrenti restano sensibilmente sotto. Anche qui, LFM2-2.6B e LFM2-8B-A1B mantengono un ottimo equilibrio tra throughput e qualità rispetto a modelli 3-4B come Qwen3-4B, Gemma-3-4B e SmolLM3-3B.
Gli autori riassumono questi risultati mostrando come i punti corrispondenti ai modelli LFM2 dominino la Pareto frontier tra average eval score e prefill / decode throughput: per un dato livello di velocità, LFM2 tende a offrire la qualità più alta tra i modelli considerati.
Vision-language: LFM2-VL vs altri VLM small
Per la parte multimodale, la famiglia LFM2-VL mostra ottimi risultati su benchmark come MMBench, MMStar, SEEDBench, RealWorldQA, OCRBench, MMMU, MathVista e altri.
In sintesi:
- LFM2-VL-450M batte nettamente SmolVLM2-500M su MMStar e MMBench, e ottiene punteggi migliori su OCRBench, mostrando che anche un modello sotto i 500M parametri può offrire visione competitiva
- LFM2-VL-1.6B è competitivo con InternVL3.5-1B e altri modelli around 1-2B
- LFM2-VL-3B spesso supera SmolVLM2-2.2B, InternVL3.5-2B e Qwen3-VL-2B su molte metriche, e resta vicino o superiore a Qwen2.5-VL-3B pur con parametri totali comparabili
Anche qui, un punto importante per chi cerca “come funziona LFM2-VL” è la graceful degradation rispetto al budget di vision token: riducendo il numero di token visivi per immagine, le prestazioni calano lentamente sulle task generali e solo più rapidamente sui task ad alta risoluzione, dando un controllo esplicito al deployer sul trade-off accuracy-latency.
Audio: LFM2-Audio-1.5B vs Qwen2.5-Omni e Whisper
LFM2-Audio viene valutato sia su VoiceBench (una suite di task per chatbot vocali) sia su un set di dataset ASR standard presi dall’Open ASR Leaderboard.
Rispetto a Qwen2.5-Omni-3B e a modelli come Moshi, Ultravox e Mini-Omni2, LFM2-Audio-1.5B:
- mantiene punteggi molto competitivi su metriche di chat vocale e question answering
- offre latenze più basse grazie alla combinazione backbone + RQ-Transformer + detokenizer ottimizzato
Sui task ASR, la Word Error Rate risulta vicina a quella di Whisper-large-v3-turbo su diversi dataset, nonostante il focus del modello sia più ampio (speech-to-speech chat, non solo trascrizione).
Retrieval: LFM2-ColBERT e NanoBEIR
Infine, LFM2-ColBERT-350M mostra forti miglioramenti su NanoBEIR rispetto a baseline come GTE-ModernColBERT-v1: la degradazione di NDCG@10 passando da inglese a lingue come arabo, giapponese e coreano è molto più contenuta, segno che il training multilingue del backbone e l’architettura late-interaction funzionano bene anche per cross-lingual retrieval.
Concetti chiave da capire per leggere bene la LFM2 Technical Report
Per usare davvero questa guida a LFM2 come “guida completa” al paper, ecco i concetti che vale la pena interiorizzare prima (e durante) la lettura.
Edge-first design
Un modello è “edge-first” quando tutto – architettura, training, quantizzazione, toolchain – è pensato partendo dai vincoli di device come telefono o laptop: time-to-first-token, latenza media e massima per token, peak memory per 4K e 32K token. In LFM2 questi numeri entrano direttamente nella procedura di architecture search e nella selezione dei checkpoint da rilasciare.
Gated short convolution vs attention globale
Le gated short convolution possono essere viste come un modo molto efficiente di mescolare informazioni tra token vicini: prendono una finestra locale, applicano una convoluzione depthwise e poi un gating che decide cosa far passare e cosa no. Sono economiche, cache-friendly e facili da ottimizzare su CPU.
La grouped-query attention (GQA) invece è il meccanismo che permette al modello di guardare lontano nella sequenza. Condividendo key/value tra gruppi di head, riduce la dimensione del KV cache e il traffico memoria, mantenendo però la flessibilità dei query. In LFM2 solo pochi layer usano GQA, il resto è affidato alle convoluzioni, riducendo molto il costo quadratico classico dell’attenzione.
Mixture-of-Experts (MoE) “attivo”
Nel modello LFM2-8B-A1B, il numero di parametri totali è alto (8.3B), ma solo una piccola sotto-matrice di esperti viene realmente attivata per ciascun token, grazie a un router che sceglie i Top-k esperti più utili. Questo significa che il costo di decode per token è simile a un modello molto più piccolo, mentre la capacità complessiva per apprendere competenze specializzate è quella di un modello più grande. Quando nel paper vedi “active params”, pensa proprio al numero di parametri che partecipano effettivamente al calcolo per token.
Pre-training vs post-training
Il pre-training è la fase in cui il modello impara a prevedere il token successivo su una grande miscela di dati generalisti (testo, multilingue, codice). È qui che acquisisce linguaggio, conoscenza del mondo, pattern generali.
Il post-training è la fase in cui si plasma il comportamento “da assistente” e si consolidano abilità specifiche (chat, RAG, tool calling, math, sicurezza). L’uso di SFT, preference optimization e model merging fa sì che piccoli modelli come LFM2 possano essere molto più utili e robusti, pur avendo visto meno dati rispetto a modelli giganti.
Decoupled Top-K knowledge distillation
Qui la chiave è capire che il teacher non passa al student tutta la distribuzione di probabilità, ma solo le top K candidate. Se ci si limitasse a fare una KL classica su questa distribuzione troncata, si otterrebbero gradienti strani: il modello verrebbe punito per non mettere massa dove il teacher non ha esplicitamente dato nessuna informazione.
La decoupled Top-K distillation “spacchetta” l’obiettivo in:
- quanta massa totale sta nel Top-K secondo il teacher
- come è distribuita quella massa tra le K opzioni
Il modello student impara entrambe le cose separatamente, e la temperatura viene applicata solo alla parte “intra-Top-K”, evitando instabilità e permettendo di usare temperature più alte per rendere il segnale del teacher più espressivo.
Curriculum learning e data mixture
LFM2 usa una forma di curriculum learning: i dati vengono organizzati per difficoltà o per competenza (per esempio matematica, tool use, long-context, ecc.) e introdotti in sequenza o con schedulazioni pensate per massimizzare ciò che il modello impara a parità di compute. La miscela SFT è costruita iterativamente, ottimizzando singole capacità prima di combinarle in un mixture bilanciato.
Multimodalità con SigLIP2 e PixelUnshuffle
In LFM2-VL il trucco è far “parlare la stessa lingua” a immagini e testo:
- SigLIP2 produce embedding per patch d’immagine
- PixelUnshuffle riduce il numero di token visivi aggregando i pixel in macro-patch
- un MLP proietta queste feature nello spazio dei token linguistici LFM2
Da quel punto in poi, l’immagine è solo una serie di token “speciali” nello stesso spazio del testo, e il modello può fare attenzione cross-modale con gli stessi blocchi convoluzione+GQA che usa per il linguaggio.
Audio generativo con RVQ e detokenizer
LFM2-Audio separa chiaramente input e output: l’encoder audio produce embedding continui compatibili con il backbone LFM2, mentre l’output viene generato come sequenza di codici RVQ (semantici + acustici) sopra cui opera un detokenizer leggero stile Vocos. Questo schema riduce la complessità di generare waveforms ad alta fedeltà e rende più facile mantenere bassa la latenza, perché il backbone non deve predire ogni campione audio ma solo frame di codici.
Late-interaction retrieval
Nel retrieval, la differenza tra bi-encoder, cross-encoder e late-interaction è cruciale:
- i bi-encoder schiacciano query e documento in un singolo vettore ciascuno
- i cross-encoder concatenano query e documento e fanno attention congiunta, ma costano troppo
- i modelli late-interaction come ColBERT mantengono un embedding per token e fanno matching token-to-token in fase di retrieval, con un’operazione MaxSim che recupera la migliore corrispondenza per ogni token della query
LFM2-ColBERT usa questo schema sopra il backbone LFM2, e viene distillato da un cross-encoder più grande, ottenendo un buon compromesso tra qualità (vicina ai cross-encoder) e efficienza (simile ai bi-encoder).
Quiz su LFM2: metti alla prova la tua comprensione
Perché LFM2 è definito un modello edge-first?
LFM2 è edge-first perché l’intera progettazione – dalla scelta dei blocchi architetturali fino alla selezione dei checkpoint da rilasciare – è guidata da metriche misurate su hardware edge reale: tempo al primo token, latenza per token, throughput di prefill e picco di memoria su smartphone e CPU laptop, oltre alla qualità sui benchmark. Gli esperimenti di architecture search scartano direttamente configurazioni che violano i budget di latency e memoria, e mantengono solo quelle che stanno sulla Pareto frontier qualità-latency-memoria.
Quali sono i componenti principali del backbone LFM2?
Il backbone LFM2 combina principalmente tre componenti: gated short convolution blocks per il mixing locale veloce e cache-friendly; pochi layer di grouped-query attention (GQA) per l’attenzione globale e il retrieval a lungo raggio; e MLP SwiGLU per la trasformazione non lineare per token. Nei modelli MoE, le MLP vengono sostituite da layer Mixture-of-Experts, mantenendo invariata la parte convoluzione+GQA.
Che problema risolve la decoupled Top-K knowledge distillation?
La decoupled Top-K distillation risolve il problema del support mismatch quando si usa il teacher solo per le Top-K logit e si applica temperature scaling. Senza decoupling, la KL su una distribuzione troncata può diventare instabile perché la massa di probabilità fuori dal Top-K viene trattata implicitamente come zero. Separando la massa totale sul Top-K dalla distribuzione relativa all’interno del Top-K e applicando temperatura solo alla seconda, gli autori riescono a trasferire il “soft signal” del teacher usando poche logit per token senza instabilità numeriche, combinando il tutto con la classica cross-entropy su label dure.
In cosa consiste il post-training a tre stadi di LFM2?
Il post-training LFM2 consiste in tre fasi: SFT su una miscela ampia di dati per insegnare al modello a rispondere in chat, seguire istruzioni, fare RAG e usare tool; preference alignment su dati di preferenza offline (inclusi esempi generati dal modello SFT) per ottimizzare lo stile e la sicurezza delle risposte; e model merging, dove diversi modelli specializzati vengono combinati nello spazio dei pesi per ottenere un unico checkpoint con capacità composite (math, tool use, dialogo, long-context, ecc.) senza dover rifare un training enorme da zero.
A cosa serve la famiglia LFM2-VL?
La famiglia LFM2-VL estende LFM2 alla visione, permettendo di trattare testo e immagini insieme. Attraverso un encoder SigLIP2 e un connettore PixelUnshuffle+MLP, le immagini vengono convertite in token nello stesso spazio del linguaggio, così che il modello possa risolvere task di VQA, OCR, multi-image reasoning, document understanding, ecc. LFM2-VL è stato pensato per mantenere la stessa efficienza edge dei modelli linguistici, offrendo allo stesso tempo performance competitive o superiori rispetto ai VLM open-source della stessa taglia.
Come funziona a grandi linee LFM2-Audio?
LFM2-Audio prende il backbone LFM2-1.2B e lo arricchisce con un encoder audio che trasforma waveforms in embedding continui, e un decoder che genera codici RVQ Mimi invece di waveform diretti. Un piccolo RQ-Transformer genera i codici condizionato sull’output del backbone, e un detokenizer stile Vocos li converte in audio 24kHz. Questo permette di avere un unico modello che può fare ASR (audio-in, text-out), TTS (text-in, audio-out) e chat vocale in tempo reale, con qualità competitiva rispetto a modelli molto più grandi.
Quando ha senso usare un modello come LFM2-350M e quando un LFM2-2.6B o LFM2-8B-A1B?
LFM2-350M è ideale per device molto vincolati o applicazioni dove la priorità è la latency minima (ad esempio piccoli agenti embedded, semplici assistenti offline, feature AI dentro app mobili). LFM2-2.6B è più indicato quando ti serve un compromesso qualità-latenza molto forte su task più complessi (math, coding leggero, RAG multiturno), restando in regime on-device. LFM2-8B-A1B ha senso quando vuoi massimizzare la qualità pur restando entro i budget di inferenza di un 1-2B: è particolarmente interessante per agenti complessi e applicazioni dove la qualità extra su reasoning e instruction following fa davvero la differenza.
Domanda 8: Cosa significa che LFM2 ha pesi open e perché è importante?
Dire che LFM2 ha open weights significa che i pesi dei modelli (dense, MoE, VL, Audio, ColBERT e i vari “Nanos”) sono scaricabili pubblicamente, ad esempio dall’account LiquidAI su Hugging Face, con licenze e toolchain di deploy espliciti. Questo è importante perché permette: fine-tuning personalizzato, deploy totalmente on-prem o on-device senza chiamate a servizi esterni, auditing indipendente, comparazioni più trasparenti con altri modelli open-source e un ecosistema di tool community-driven (come leap-finetune, cookbook, integrazioni in Transformers, ecc.).
Studi correlati e modelli affini a LFM2: cosa leggere dopo
Per chi vuole andare oltre questa LFM2 guida completa, il paper discute un ampio panorama di lavori collegati.
Un primo riferimento è la prima generazione di Liquid Foundation Models (LFM1) e il prototipo accademico STAR, dove gli autori avevano già sperimentato con search su operatori alternativi (state space, convoluzioni, varianti ibride) usando proxy come perplexity e cache size. LFM2 riprende quell’idea ma sostituisce le proxy con obiettivi più realistici (downstream tasks e misure hardware-in-the-loop), mostrando che a parità di obiettivi una configurazione più semplice (conv+GQA) è sufficiente.
Poi c’è l’ampio filone di architetture efficienti basate su state space models (SSM) e linear attention, come S4, Liquid-S4, Mamba, Hyena, ecc., che cercano di sostituire o integrare l’attenzione tradizionale con operatori sub-quadratici. LFM2 si colloca un po’ in controtendenza: riconosce i benefici delle componenti short-convolution presenti in molti di questi blocchi, ma conclude empiricamente che sulle metriche edge non serve portarsi dietro l’intera complessità degli SSM, se si progettano bene le convoluzioni e si inseriscono pochi layer di attenzione globale.
Sul fronte small language models open-source da confrontare o approfondire, il paper utilizza come baseline famiglie come Qwen3, Gemma 3, Llama 3.2, SmolLM3 e Granite 4.0, tutte focalizzate su modelli di pochi miliardi o meno, ma generalmente basate su architetture transformer più tradizionali. Leggere i loro report aiuta a mettere in prospettiva quanto sia alto il livello della competizione e dove LFM2 guadagna vantaggio (specie su throughput CPU e math/multilingue).
Per la parte multimodale, i confronti più frequenti sono con SmolVLM2, InternVL3.5, Qwen2.5-VL e altri VLM sotto i 4B parametri. Questi lavori esplorano scelte simili (encoder visivo separato, connector leggero, training in più fasi) ma con trade-off diversi tra resolution supportata, grounding, OCR, multi-image reasoning e bilanciamento tra capacità visive e linguistiche.
Sul versante audio, LFM2-Audio entra in dialogo con sistemi come Qwen2.5-Omni, Whisper, Moshi, Ultravox, Mini-Omni2, che rappresentano strategie diverse per unificare ASR, TTS e chat vocale. Alcuni puntano più sulla qualità di ASR, altri sulle capacità multimodali generali. Il contributo di LFM2-Audio è mostrare che un design backbone+RQ-Transformer+detokenizer pensato per edge può mantenere una qualità comparabile con modelli più grandi, ma con latenza e footprint più contenuti.
Infine, per il retrieval, lavori come ColBERT e GTE-ModernColBERT sono fondamentali per capire il contesto: definiscono il paradigma late-interaction e mostrano come recuperare gran parte della qualità dei cross-encoder mantenendo la scalabilità dei bi-encoder. LFM2-ColBERT applica questi principi usando un backbone edge-first e un training distillato, portando il paradigma anche nel regime dei piccoli modelli on-device.
Se stai esplorando modelli per l’on-device AI, leggere la LFM2 Technical Report insieme ai report di queste famiglie ti darà una visione abbastanza completa dello stato dell’arte, e questa guida a LFM2 dovrebbe aiutarti a muoverti tra sezioni, concetti e risultati senza perderti nei dettagli più tecnici.
