OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

作者: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang

分类: cs.AI, cs.CL, cs.IR

发布日期: 2024-09-21 (更新: 2026-01-29)

备注: 5 pages, 1 figure, 1 table, 1 code snippet

💡 一句话要点

OAEI-LLM：构建本体匹配LLM幻觉评测基准数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 本体匹配 幻觉 基准数据集 知识图谱

📋 核心要点

现有本体匹配方法在处理复杂领域知识时存在不足，大型语言模型应用于此任务时易产生幻觉。
论文通过扩展OAEI数据集，构建OAEI-LLM数据集，专门用于评估LLM在本体匹配任务中的幻觉。
该数据集提供了数据集构建方法和模式扩展的详细信息，并展示了数据集的潜在应用场景。

📝 摘要（中文）

大型语言模型（LLM）的幻觉现象普遍存在于特定领域的下游任务中，本体匹配（OM）也不例外。将LLM应用于OM任务日益普遍，因此需要基准数据集来更好地理解LLM的幻觉。OAEI-LLM数据集是本体对齐评估倡议（OAEI）数据集的扩展版本，用于评估OM任务中LLM特有的幻觉。本文概述了数据集构建和模式扩展的方法，并提供了潜在用例的示例。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在本体匹配（OM）任务中产生的幻觉问题。现有的OM方法可能无法充分利用LLM的知识，导致生成不准确或不一致的匹配结果。此外，缺乏专门用于评估LLM在OM任务中幻觉的基准数据集。

核心思路：论文的核心思路是构建一个专门用于评估LLM在OM任务中幻觉现象的基准数据集。通过扩展现有的OAEI数据集，并引入针对LLM幻觉的评估指标，可以更全面地了解LLM在OM任务中的表现。

技术框架：OAEI-LLM数据集的构建主要包括以下几个阶段：1) 选择合适的OAEI数据集作为基础；2) 扩展数据集的模式，使其能够评估LLM的幻觉；3) 设计评估指标，用于衡量LLM在OM任务中的幻觉程度；4) 提供数据集的使用示例，方便研究人员使用。

关键创新：该论文的关键创新在于构建了一个专门用于评估LLM在本体匹配任务中幻觉现象的基准数据集。与现有的OM数据集相比，OAEI-LLM数据集更加关注LLM的幻觉问题，并提供了相应的评估指标。

关键设计：数据集的模式扩展和评估指标的设计是关键。具体的扩展方法和评估指标在论文中没有详细说明，属于未知信息。但是，数据集的构建思路是针对LLM在OM任务中可能出现的幻觉类型进行设计的，例如，逻辑不一致、事实错误等。

🖼️ 关键图片

📊 实验亮点

由于论文主要关注数据集的构建，并没有提供具体的实验结果。因此，实验亮点未知。但是，OAEI-LLM数据集的发布为评估LLM在本体匹配任务中的幻觉提供了一个重要的资源，可以促进相关研究的进展。

🎯 应用场景

该研究成果可应用于本体工程、知识图谱构建、语义搜索等领域。通过使用OAEI-LLM数据集，研究人员可以更好地评估和改进LLM在本体匹配任务中的性能，减少幻觉现象，提高知识表示和推理的准确性。未来，该数据集可以促进LLM在知识密集型任务中的应用。

📄 摘要（原文）

Hallucinations of large language models (LLMs) commonly occur in domain-specific downstream tasks, with no exception in ontology matching (OM). The prevalence of using LLMs for OM raises the need for benchmarks to better understand LLM hallucinations. The OAEI-LLM dataset is an extended version of the Ontology Alignment Evaluation Initiative (OAEI) datasets that evaluate LLM-specific hallucinations in OM tasks. We outline the methodology used in dataset construction and schema extension, and provide examples of potential use cases.

OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理