Large Language Models Assisting Ontology Evaluation
作者: Anna Sofia Lippolis, Mohammad Javad Saeedizade, Robin Keskisärkkä, Aldo Gangemi, Eva Blomqvist, Andrea Giovanni Nuzzolese
分类: cs.AI
发布日期: 2025-07-19
💡 一句话要点
OE-Assist框架:利用大型语言模型辅助本体评估,提升效率并降低成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 本体评估 大型语言模型 能力问题 知识图谱 自动化评估
📋 核心要点
- 本体评估依赖人工,成本高昂且易出错,专家也面临挑战。
- OE-Assist框架利用LLM自动化CQ验证,辅助本体评估流程。
- 实验表明,LLM的自动评估性能与普通用户水平相当。
📝 摘要(中文)
本研究介绍了一种名为OE-Assist的新型框架,旨在通过自动化和半自动化的能力问题(CQ)验证来辅助本体评估。本体评估,特别是通过CQ验证等功能需求进行测试,是一项成熟但成本高昂、劳动密集且容易出错的工作,即使对于本体工程专家来说也是如此。通过展示和利用包含1393个CQ以及相应的本体和本体故事的数据集,我们的贡献首次对大型语言模型(LLM)辅助本体评估进行了系统的研究,包括:(i)评估基于LLM的方法自动执行CQ验证(对照手动创建的黄金标准)的有效性,以及(ii)开发和评估一个由LLM驱动的框架,通过提供建议来辅助Protégé中的CQ验证。我们发现,使用o1-preview和o3-mini进行自动LLM评估的性能与普通用户的平均水平相似。
🔬 方法详解
问题定义:本体评估,特别是通过能力问题(CQ)验证,是本体工程中至关重要的一环。然而,现有方法高度依赖人工,导致评估过程耗时、成本高昂,且容易引入人为错误,即使是经验丰富的本体工程专家也难以避免。因此,如何降低本体评估的成本,提高效率和准确性,是一个亟待解决的问题。
核心思路:本研究的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,自动化或半自动化地进行CQ验证。通过让LLM理解CQ的含义,并将其与本体的知识进行匹配,从而判断本体是否满足CQ所提出的需求。这种方法旨在减少人工干预,提高评估效率和准确性。
技术框架:OE-Assist框架包含两个主要部分:一是自动CQ验证,二是LLM辅助的CQ验证。自动CQ验证部分直接使用LLM对CQ进行验证,并与人工标注的黄金标准进行比较。LLM辅助的CQ验证部分则集成到Protégé本体编辑器中,为用户提供CQ验证建议。该框架使用包含1393个CQ、本体和本体故事的数据集进行训练和评估。
关键创新:本研究的关键创新在于首次系统性地探索了LLM在本体评估中的应用。以往的本体评估方法主要依赖人工或基于规则的自动化方法,而本研究则利用LLM的语义理解能力,实现了更智能、更灵活的本体评估。此外,该研究还构建了一个包含大量CQ、本体和本体故事的数据集,为后续研究提供了宝贵的资源。
关键设计:研究中使用了不同的LLM模型,包括o1-preview和o3-mini,并比较了它们在自动CQ验证中的性能。研究人员还设计了一套评估指标,用于衡量LLM的验证结果与黄金标准之间的差异。此外,在LLM辅助的CQ验证部分,研究人员还设计了用户界面,方便用户与LLM进行交互,并采纳或拒绝LLM的建议。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用o1-preview和o3-mini进行自动LLM评估的性能与普通用户的平均水平相似。这表明LLM在本体评估方面具有潜力,可以作为人工评估的有效补充。该研究为后续利用LLM进行本体工程提供了有价值的参考。
🎯 应用场景
该研究成果可应用于知识图谱构建、语义搜索、智能问答等领域。通过自动化本体评估,可以提高知识库的质量和可靠性,从而提升相关应用的性能。未来,该技术有望应用于医疗、金融、法律等领域,辅助专家进行知识管理和决策。
📄 摘要(原文)
Ontology evaluation through functional requirements, such as testing via competency question (CQ) verification, is a well-established yet costly, labour-intensive, and error-prone endeavour, even for ontology engineering experts. In this work, we introduce OE-Assist, a novel framework designed to assist ontology evaluation through automated and semi-automated CQ verification. By presenting and leveraging a dataset of 1,393 CQs paired with corresponding ontologies and ontology stories, our contributions present, to our knowledge, the first systematic investigation into large language model (LLM)-assisted ontology evaluation, and include: (i) evaluating the effectiveness of a LLM-based approach for automatically performing CQ verification against a manually created gold standard, and (ii) developing and assessing an LLM-powered framework to assist CQ verification with Protégé, by providing suggestions. We found that automated LLM-based evaluation with o1-preview and o3-mini perform at a similar level to the average user's performance.