OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

📄 arXiv: 2409.14038v6 📥 PDF

作者: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang

分类: cs.AI, cs.CL, cs.IR

发布日期: 2024-09-21 (更新: 2026-01-29)

备注: 5 pages, 1 figure, 1 table, 1 code snippet


💡 一句话要点

OAEI-LLM:构建本体匹配LLM幻觉评测基准数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 本体匹配 幻觉 基准数据集 知识图谱

📋 核心要点

  1. 现有本体匹配方法在处理复杂领域知识时存在不足,大型语言模型应用于此任务时易产生幻觉。
  2. 论文通过扩展OAEI数据集,构建OAEI-LLM数据集,专门用于评估LLM在本体匹配任务中的幻觉。
  3. 该数据集提供了数据集构建方法和模式扩展的详细信息,并展示了数据集的潜在应用场景。

📝 摘要(中文)

大型语言模型(LLM)的幻觉现象普遍存在于特定领域的下游任务中,本体匹配(OM)也不例外。将LLM应用于OM任务日益普遍,因此需要基准数据集来更好地理解LLM的幻觉。OAEI-LLM数据集是本体对齐评估倡议(OAEI)数据集的扩展版本,用于评估OM任务中LLM特有的幻觉。本文概述了数据集构建和模式扩展的方法,并提供了潜在用例的示例。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在本体匹配(OM)任务中产生的幻觉问题。现有的OM方法可能无法充分利用LLM的知识,导致生成不准确或不一致的匹配结果。此外,缺乏专门用于评估LLM在OM任务中幻觉的基准数据集。

核心思路:论文的核心思路是构建一个专门用于评估LLM在OM任务中幻觉现象的基准数据集。通过扩展现有的OAEI数据集,并引入针对LLM幻觉的评估指标,可以更全面地了解LLM在OM任务中的表现。

技术框架:OAEI-LLM数据集的构建主要包括以下几个阶段:1) 选择合适的OAEI数据集作为基础;2) 扩展数据集的模式,使其能够评估LLM的幻觉;3) 设计评估指标,用于衡量LLM在OM任务中的幻觉程度;4) 提供数据集的使用示例,方便研究人员使用。

关键创新:该论文的关键创新在于构建了一个专门用于评估LLM在本体匹配任务中幻觉现象的基准数据集。与现有的OM数据集相比,OAEI-LLM数据集更加关注LLM的幻觉问题,并提供了相应的评估指标。

关键设计:数据集的模式扩展和评估指标的设计是关键。具体的扩展方法和评估指标在论文中没有详细说明,属于未知信息。但是,数据集的构建思路是针对LLM在OM任务中可能出现的幻觉类型进行设计的,例如,逻辑不一致、事实错误等。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

由于论文主要关注数据集的构建,并没有提供具体的实验结果。因此,实验亮点未知。但是,OAEI-LLM数据集的发布为评估LLM在本体匹配任务中的幻觉提供了一个重要的资源,可以促进相关研究的进展。

🎯 应用场景

该研究成果可应用于本体工程、知识图谱构建、语义搜索等领域。通过使用OAEI-LLM数据集,研究人员可以更好地评估和改进LLM在本体匹配任务中的性能,减少幻觉现象,提高知识表示和推理的准确性。未来,该数据集可以促进LLM在知识密集型任务中的应用。

📄 摘要(原文)

Hallucinations of large language models (LLMs) commonly occur in domain-specific downstream tasks, with no exception in ontology matching (OM). The prevalence of using LLMs for OM raises the need for benchmarks to better understand LLM hallucinations. The OAEI-LLM dataset is an extended version of the Ontology Alignment Evaluation Initiative (OAEI) datasets that evaluate LLM-specific hallucinations in OM tasks. We outline the methodology used in dataset construction and schema extension, and provide examples of potential use cases.