Large Language Models Assisting Ontology Evaluation

📄 arXiv: 2507.14552v1 📥 PDF

作者: Anna Sofia Lippolis, Mohammad Javad Saeedizade, Robin Keskisärkkä, Aldo Gangemi, Eva Blomqvist, Andrea Giovanni Nuzzolese

分类: cs.AI

发布日期: 2025-07-19


💡 一句话要点

OE-Assist框架:利用大型语言模型辅助本体评估,提升效率并降低成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 本体评估 大型语言模型 能力问题 知识图谱 自动化评估

📋 核心要点

  1. 本体评估依赖人工,成本高昂且易出错,专家也面临挑战。
  2. OE-Assist框架利用LLM自动化CQ验证,辅助本体评估流程。
  3. 实验表明,LLM的自动评估性能与普通用户水平相当。

📝 摘要(中文)

本研究介绍了一种名为OE-Assist的新型框架,旨在通过自动化和半自动化的能力问题(CQ)验证来辅助本体评估。本体评估,特别是通过CQ验证等功能需求进行测试,是一项成熟但成本高昂、劳动密集且容易出错的工作,即使对于本体工程专家来说也是如此。通过展示和利用包含1393个CQ以及相应的本体和本体故事的数据集,我们的贡献首次对大型语言模型(LLM)辅助本体评估进行了系统的研究,包括:(i)评估基于LLM的方法自动执行CQ验证(对照手动创建的黄金标准)的有效性,以及(ii)开发和评估一个由LLM驱动的框架,通过提供建议来辅助Protégé中的CQ验证。我们发现,使用o1-preview和o3-mini进行自动LLM评估的性能与普通用户的平均水平相似。

🔬 方法详解

问题定义:本体评估,特别是通过能力问题(CQ)验证,是本体工程中至关重要的一环。然而,现有方法高度依赖人工,导致评估过程耗时、成本高昂,且容易引入人为错误,即使是经验丰富的本体工程专家也难以避免。因此,如何降低本体评估的成本,提高效率和准确性,是一个亟待解决的问题。

核心思路:本研究的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,自动化或半自动化地进行CQ验证。通过让LLM理解CQ的含义,并将其与本体的知识进行匹配,从而判断本体是否满足CQ所提出的需求。这种方法旨在减少人工干预,提高评估效率和准确性。

技术框架:OE-Assist框架包含两个主要部分:一是自动CQ验证,二是LLM辅助的CQ验证。自动CQ验证部分直接使用LLM对CQ进行验证,并与人工标注的黄金标准进行比较。LLM辅助的CQ验证部分则集成到Protégé本体编辑器中,为用户提供CQ验证建议。该框架使用包含1393个CQ、本体和本体故事的数据集进行训练和评估。

关键创新:本研究的关键创新在于首次系统性地探索了LLM在本体评估中的应用。以往的本体评估方法主要依赖人工或基于规则的自动化方法,而本研究则利用LLM的语义理解能力,实现了更智能、更灵活的本体评估。此外,该研究还构建了一个包含大量CQ、本体和本体故事的数据集,为后续研究提供了宝贵的资源。

关键设计:研究中使用了不同的LLM模型,包括o1-preview和o3-mini,并比较了它们在自动CQ验证中的性能。研究人员还设计了一套评估指标,用于衡量LLM的验证结果与黄金标准之间的差异。此外,在LLM辅助的CQ验证部分,研究人员还设计了用户界面,方便用户与LLM进行交互,并采纳或拒绝LLM的建议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用o1-preview和o3-mini进行自动LLM评估的性能与普通用户的平均水平相似。这表明LLM在本体评估方面具有潜力,可以作为人工评估的有效补充。该研究为后续利用LLM进行本体工程提供了有价值的参考。

🎯 应用场景

该研究成果可应用于知识图谱构建、语义搜索、智能问答等领域。通过自动化本体评估,可以提高知识库的质量和可靠性,从而提升相关应用的性能。未来,该技术有望应用于医疗、金融、法律等领域,辅助专家进行知识管理和决策。

📄 摘要(原文)

Ontology evaluation through functional requirements, such as testing via competency question (CQ) verification, is a well-established yet costly, labour-intensive, and error-prone endeavour, even for ontology engineering experts. In this work, we introduce OE-Assist, a novel framework designed to assist ontology evaluation through automated and semi-automated CQ verification. By presenting and leveraging a dataset of 1,393 CQs paired with corresponding ontologies and ontology stories, our contributions present, to our knowledge, the first systematic investigation into large language model (LLM)-assisted ontology evaluation, and include: (i) evaluating the effectiveness of a LLM-based approach for automatically performing CQ verification against a manually created gold standard, and (ii) developing and assessing an LLM-powered framework to assist CQ verification with Protégé, by providing suggestions. We found that automated LLM-based evaluation with o1-preview and o3-mini perform at a similar level to the average user's performance.