Large Language Models Assisting Ontology Evaluation

作者: Anna Sofia Lippolis, Mohammad Javad Saeedizade, Robin Keskisärkkä, Aldo Gangemi, Eva Blomqvist, Andrea Giovanni Nuzzolese

分类: cs.AI

发布日期: 2025-07-19

💡 一句话要点

OE-Assist框架：利用大型语言模型辅助本体评估，提升效率并降低成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 本体评估 大型语言模型 能力问题 知识图谱 自动化评估

📋 核心要点

本体评估依赖人工，成本高昂且易出错，专家也面临挑战。
OE-Assist框架利用LLM自动化CQ验证，辅助本体评估流程。
实验表明，LLM的自动评估性能与普通用户水平相当。

📝 摘要（中文）

本研究介绍了一种名为OE-Assist的新型框架，旨在通过自动化和半自动化的能力问题（CQ）验证来辅助本体评估。本体评估，特别是通过CQ验证等功能需求进行测试，是一项成熟但成本高昂、劳动密集且容易出错的工作，即使对于本体工程专家来说也是如此。通过展示和利用包含1393个CQ以及相应的本体和本体故事的数据集，我们的贡献首次对大型语言模型（LLM）辅助本体评估进行了系统的研究，包括：（i）评估基于LLM的方法自动执行CQ验证（对照手动创建的黄金标准）的有效性，以及（ii）开发和评估一个由LLM驱动的框架，通过提供建议来辅助Protégé中的CQ验证。我们发现，使用o1-preview和o3-mini进行自动LLM评估的性能与普通用户的平均水平相似。

🔬 方法详解

问题定义：本体评估，特别是通过能力问题（CQ）验证，是本体工程中至关重要的一环。然而，现有方法高度依赖人工，导致评估过程耗时、成本高昂，且容易引入人为错误，即使是经验丰富的本体工程专家也难以避免。因此，如何降低本体评估的成本，提高效率和准确性，是一个亟待解决的问题。

核心思路：本研究的核心思路是利用大型语言模型（LLM）强大的自然语言理解和生成能力，自动化或半自动化地进行CQ验证。通过让LLM理解CQ的含义，并将其与本体的知识进行匹配，从而判断本体是否满足CQ所提出的需求。这种方法旨在减少人工干预，提高评估效率和准确性。

技术框架：OE-Assist框架包含两个主要部分：一是自动CQ验证，二是LLM辅助的CQ验证。自动CQ验证部分直接使用LLM对CQ进行验证，并与人工标注的黄金标准进行比较。LLM辅助的CQ验证部分则集成到Protégé本体编辑器中，为用户提供CQ验证建议。该框架使用包含1393个CQ、本体和本体故事的数据集进行训练和评估。

关键创新：本研究的关键创新在于首次系统性地探索了LLM在本体评估中的应用。以往的本体评估方法主要依赖人工或基于规则的自动化方法，而本研究则利用LLM的语义理解能力，实现了更智能、更灵活的本体评估。此外，该研究还构建了一个包含大量CQ、本体和本体故事的数据集，为后续研究提供了宝贵的资源。

关键设计：研究中使用了不同的LLM模型，包括o1-preview和o3-mini，并比较了它们在自动CQ验证中的性能。研究人员还设计了一套评估指标，用于衡量LLM的验证结果与黄金标准之间的差异。此外，在LLM辅助的CQ验证部分，研究人员还设计了用户界面，方便用户与LLM进行交互，并采纳或拒绝LLM的建议。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用o1-preview和o3-mini进行自动LLM评估的性能与普通用户的平均水平相似。这表明LLM在本体评估方面具有潜力，可以作为人工评估的有效补充。该研究为后续利用LLM进行本体工程提供了有价值的参考。

🎯 应用场景

该研究成果可应用于知识图谱构建、语义搜索、智能问答等领域。通过自动化本体评估，可以提高知识库的质量和可靠性，从而提升相关应用的性能。未来，该技术有望应用于医疗、金融、法律等领域，辅助专家进行知识管理和决策。

📄 摘要（原文）

Ontology evaluation through functional requirements, such as testing via competency question (CQ) verification, is a well-established yet costly, labour-intensive, and error-prone endeavour, even for ontology engineering experts. In this work, we introduce OE-Assist, a novel framework designed to assist ontology evaluation through automated and semi-automated CQ verification. By presenting and leveraging a dataset of 1,393 CQs paired with corresponding ontologies and ontology stories, our contributions present, to our knowledge, the first systematic investigation into large language model (LLM)-assisted ontology evaluation, and include: (i) evaluating the effectiveness of a LLM-based approach for automatically performing CQ verification against a manually created gold standard, and (ii) developing and assessing an LLM-powered framework to assist CQ verification with Protégé, by providing suggestions. We found that automated LLM-based evaluation with o1-preview and o3-mini perform at a similar level to the average user's performance.

Large Language Models Assisting Ontology Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理