OntoAxiom guida completa: come misurare gli LLM sull’ontology learning

8 dicembre 2025

Quando senti parlare di ontologie e knowledge graph, sembra sempre qualcosa da "semantica hardcore". OntoAxiom è il tentativo di portare un po' di ordine: è un benchmark progettato per capire quanto davvero gli LLM riescono a ricostruire gli assiomi che tengono insieme un'ontologia. In questa OntoAxiom guida completa vediamo cos'è, come funziona e cosa ci dice sui limiti reali dei modelli attuali.

Il lavoro originale si intitola "Ontology Learning with LLMs: A Benchmark Study on Axiom Identification", è stato reso pubblico su arXiv il 5 dicembre 2025 ed è attualmente sotto revisione per il Semantic Web Journal.

Che cos'è OntoAxiom e perché è importante (guida completa)

Che cos'è OntoAxiom? Guida completa

OntoAxiom è un benchmark per valutare la capacità dei Large Language Models di identificare assiomi ontologici. Gli autori preparano nove ontologie reali, rimuovono gli assiomi e chiedono agli LLM di ricostruirli a partire solo da classi e proprietà. Si concentrano su cinque tipi di assiomi: subclass, disjoint, subproperty, domain e range, per un totale di 17.118 triple e 2.771 assiomi.

Quale problema prova a risolvere OntoAxiom?

Costruire un'ontologia è costoso perché richiede esperti di dominio e di modellazione formale. Molte tecniche di ontology learning aiutano a estrarre termini e gerarchie tassonomiche, ma la parte più "alta" della famosa ontology learning layer cake - le regole e gli assiomi - resta difficile e spesso manuale. OntoAxiom attacca proprio questo livello alto, dove le relazioni logiche sono implicite e meno ancorate al testo superficiale.

Perché l'identificazione di assiomi è così difficile per gli LLM?

Gli assiomi richiedono di ragionare su vincoli astratti, non solo su similarità semantiche. Gli esperimenti mostrano che gli LLM se la cavano meglio con le subclass, mentre faticano molto con domain e range, che sono più dipendenti dal contesto e dal modo in cui l'ontologia viene usata. Questo porta a F1 molto modesti per questi ultimi tipi di assiomi.

Come si collega OntoAxiom ai modelli che già conosci?

Il benchmark non testa un singolo modello, ma dodici LLM diversi, sia open source sia proprietari. Dentro trovi Qwen2.5-Coder, Qwen3, Llama 3.3, Mistral Small 3.1, DeepSeek R1, vari GPT-4.x, più i modelli reasoning o1, o1-mini e o4-mini. Tutti sono usati in modalità instruction-tuned con temperatura 0.2, per avere output consistenti. Il risultato è una fotografia comparativa piuttosto ampia del panorama LLM attuale.

Cosa cambia nella pratica per ricercatori e aziende?

La conclusione è chiara: oggi gli LLM non bastano per automatizzare completamente l'identificazione degli assiomi, ma sono già utili come generatori di assiomi candidati. Alcune combinazioni modello-ontologia arrivano a F1 intorno a 0.64 per le subclass nel caso della FOAF ontology, mentre altre restano sotto 0.2. Questo suggerisce workflow semi-automatici, in cui l'esperto seleziona e corregge le proposte del modello.

Ultime coordinate utili: GitHub: https://gitlab.com/ontologylearning/axiomidentification Paper: https://arxiv.org/abs/2512.05594 Dataset: release v1.0.1 su GitLab

OntoAxiom spiegato più in dettaglio

Architettura dell'esperimento e componenti chiave

Il setup sperimentale è semplice ma rigoroso. Si parte da ontologie esistenti, si rimuovono gli assiomi target e si forniscono agli LLM solo classi e proprietà. Il modello restituisce una lista di assiomi predetti, che vengono confrontati con quelli originali tramite precision, recall e F1. In totale si combinano cinque tipi di assiomi, nove ontologie, dodici LLM, due strategie di prompting e tre configurazioni di shot, per 3.240 risultati.

Le cinque tipologie di assiomi considerate

Gli assiomi scelti coprono sia aspetti di struttura sia di vincolo. Le subclass indicano che tutti gli elementi di una classe appartengono anche a un'altra classe. Le disjoint dicono che due classi non possono condividere istanze. Le subproperty definiscono gerarchie fra proprietà. Le domain specificano quali soggetti possono comparire con una data proprietà, mentre le range indicano le classi ammesse come oggetti. Insieme forniscono un "kit minimo" per modellare domini realistici.

Le nove ontologie dentro OntoAxiom

Per il benchmark sono state selezionate nove ontologie di dimensione media, con 15-100 classi e un massimo di 500 proprietà, assicurandosi che contenessero un numero sufficiente di assiomi fra i cinque tipi considerati. I domini spaziano dalle ferrovie europee (ERA) alle persone (FOAF), dai prodotti eCommerce (GoodRelations) al tempo (OWL-Time), passando per gUFO, Music Ontology, Nord Stream Pipeline, Pizza e SAREF per i dispositivi smart. Complessivamente il benchmark conta 17.118 triple e 2.771 assiomi.

Strategie di prompting: Direct vs Axiom-by-Axiom

Vengono confrontate due famiglie di prompt. Nella strategia Direct il modello deve restituire in un colpo solo tutte le subclass, disjoint, subproperty, domain e range, con un output strutturato in JSON. Nell'approccio Axiom-by-Axiom (AbA) il compito viene scomposto: un prompt per le subclass, uno per le disjoint e così via, e i risultati vengono poi aggregati. AbA ottiene in media F1 leggermente migliori, soprattutto per subclass, domain e range, mentre Direct resta competitivo sulle disjoint.

Per entrambi gli approcci si provano zero-shot, one-shot e five-shot. La differenza fra gli shot è meno drammatica di quanto potresti aspettarti: la configurazione migliore è AbA one-shot, ma i guadagni rispetto alle altre sono modesti. Questo suggerisce che, per l'identificazione di assiomi, il collo di bottiglia non è tanto il numero di esempi nel prompt quanto la difficoltà intrinseca del task.

Quali LLM sono stati valutati e come si comportano

Sui modelli si osservano pattern abbastanza netti. I modelli closed-source di OpenAI, in media, superano le alternative open source, con F1 medi più alti a parità di task. I modelli di dimensione maggiore superano i più piccoli e, tra i modelli specializzati, quelli di tipo reasoning/coding (come o1 e o4-mini) fanno leggermente meglio dei general purpose. Il modello con le performance migliori è o1, seguito da o4-mini e GPT-4.1, mentre Qwen2.5-Coder, Qwen3, GPT-4o-mini e DeepSeek R1 chiudono la classifica.

Questo non significa che i modelli open source siano inutili: Llama 3.3 e Mistral Small ottengono risultati competitivi su alcuni assiomi e ontologie, offrendo un buon compromesso fra costo computazionale e qualità. Ma se devi scegliere un singolo modello per un contesto mission-critical, il benchmark mostra che i modelli di fascia alta, specializzati nel reasoning, offrono ancora un margine rilevante.

Confronto con gli approcci precedenti all'ontology learning

Per anni l'ontology learning ha lavorato soprattutto sui piani bassi della layer cake: estrazione di termini, concetti e tassonomie da testo usando regole, pattern linguistici o modelli statistici. Più di recente sono arrivati approcci deep-learning e LLM-based, ma sempre concentrati su concetti e relazioni, non sugli assiomi formali. L'unico lavoro precedente che usa LLM per gli assiomi riguarda la traduzione di frasi in OWL, con valutazioni perlopiù qualitative. OntoAxiom è quindi il primo benchmark sistematico e quantitativo focalizzato sull'identificazione di assiomi.

Limiti e trade-off: dove OntoAxiom non basta

Gli autori sono espliciti sui limiti del lavoro. Il benchmark copre solo cinque assiomi RDFS/OWL e nove ontologie di media dimensione; estenderlo a assiomi più complessi, combinazioni di regole o domini ancora più specializzati sarebbe un passo naturale. Anche la metrica è volutamente severa: un'associazione subclass è considerata corretta solo se coincide esattamente con l'assioma di riferimento, senza sfruttare proprietà come la transitività.

Inoltre, le variazioni sulle strategie di prompting sono solo una parte dello spazio possibile: non vengono provati, ad esempio, chain-of-thought o prompt multi-turno con correzione interattiva. Infine, valutare la qualità di ontologie generate automaticamente è di per sé difficile; il benchmark si affida a confronti strutturali, ma non misura direttamente l'utilità degli assiomi per task applicativi specifici.

Come puoi usare OntoAxiom nei tuoi progetti

Se lavori con ontologie, OntoAxiom è soprattutto una risorsa per capire dove gli LLM ti possono aiutare e dove no. Puoi partire dai prompt e dagli script disponibili su GitLab per misurare il tuo modello su una o più delle nove ontologie, oppure adattare la pipeline al tuo dominio. I risultati suggeriscono di usare l'approccio AbA con uno-shot come default e di trattare gli assiomi prodotti come proposte da filtrare, non come verità pronte per andare in produzione.

Domande frequenti (FAQ) su OntoAxiom

OntoAxiom è un modello, un benchmark o un dataset?

OntoAxiom è prima di tutto un benchmark: un insieme di ontologie, assiomi di riferimento e protocolli di valutazione pensati per testare LLM diversi sullo stesso compito. Include però anche i file delle ontologie, quindi funge di fatto da dataset, e il repository GitLab fornisce codice e prompt per riprodurre gli esperimenti. Non è invece un modello: non viene rilasciato alcun LLM addestrato ad hoc.

Posso usare OntoAxiom per addestrare il mio LLM?

Tecnicamente sì, puoi usare le ontologie e gli assiomi per addestrare o fare fine-tuning di un modello su compiti legati all'ontology learning. Però, se vuoi poi usare OntoAxiom per valutare il modello, dovresti evitare di addestrarlo sugli stessi dati, altrimenti la misurazione sarebbe distorta. In ogni caso è importante verificare la licenza dei file nel repository GitLab prima di usarli in contesti commerciali.

In quali casi pratici ha senso usare LLM per l'identificazione di assiomi?

I risultati indicano che gli LLM sono più efficaci su domini relativamente generali o molto documentati, come FOAF o ontologie accademiche note, dove arrivano a buone F1 sulle subclass. In questi contesti puoi usare il modello per proporre rapidamente assiomi che poi un ontologist revisiona. Per domini ristretti o altamente tecnici, gli assiomi generati vanno presi con più cautela e affiancati a conoscenza di dominio esplicita.

Che prestazioni posso aspettarmi se applico i prompt di OntoAxiom al mio dominio?

Nel benchmark, le subclass sono la categoria più "facile", con F1 media intorno a 0.36 e picchi fino a circa 0.64 su FOAF; subproperty e disjoint restano molto più basse, mentre domain e range sono le più problematiche, spesso sotto 0.05 di F1 in media. Questo significa che puoi aspettarti buone proposte per le gerarchie di classi, ma vincoli di dominio e range richiederanno ancora un forte intervento umano.

OntoAxiom è adatto anche a domini molto specialistici?

I risultati sull'ontologia ERA, dedicata all'infrastruttura ferroviaria europea, mostrano F1 mediamente più bassi rispetto a domini come FOAF o Pizza. Gli autori ipotizzano che gli LLM siano meno esposti, durante il pre-training, a testi su concetti così specifici e che questo renda più difficile inferire gli assiomi corretti. Se lavori in settori molto verticali, dovresti quindi aspettarti prestazioni più deboli e progettare il processo in ottica human-in-the-loop.

Come evolverà OntoAxiom nei prossimi anni?

Nelle conclusioni gli autori indicano diverse direzioni future: estendere il benchmark ad altri tipi di assiomi e regole logiche, includere più ontologie e studiare metriche di valutazione più sofisticate, ad esempio che tengano conto della transitività. Viene anche proposta un'esplorazione di prompt più ricchi, come chain-of-thought o workflow interattivi con l'utente. L'obiettivo è supportare sempre di più scenari ibridi LLM-umano nell'ingegneria delle ontologie.