Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study Over Open-ended Question Answering
作者: Yuan Sui, Yufei He, Zifeng Ding, Bryan Hooi
分类: cs.CL, cs.AI
发布日期: 2024-10-10 (更新: 2025-05-22)
备注: This paper has been accepted by ACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出OKGQA基准测试,评估知识图谱增强大语言模型在开放域问答中的可信度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 大语言模型 开放域问答 基准测试 幻觉 可信度 OKGQA OKGQA-P
📋 核心要点
- 现有基准测试主要集中在封闭式任务,无法充分评估知识图谱在开放域问答中减少大语言模型幻觉的能力。
- 论文提出OKGQA基准测试,包含多样问题类型和评估指标,旨在更全面地评估知识图谱增强的大语言模型在开放域问答中的可信度。
- 论文还提出了OKGQA-P基准变体,用于评估当知识图谱包含错误时模型的性能,从而更贴近真实世界的应用场景。
📝 摘要(中文)
本文提出了一种新的基准测试OKGQA,旨在评估知识图谱(KG)增强的大语言模型(LLM)在开放域、真实世界问答场景中的性能。现有基准主要关注封闭式任务,无法全面评估KG在减少LLM幻觉方面的潜力。OKGQA通过多样的问题类型反映了实际的复杂性,并包含量化LLM+KG模型中幻觉率和推理改进的指标。为了考虑KG可能包含不同程度错误的情况,本文还提出了一个基准变体OKGQA-P,用于评估当KG的语义和结构受到故意扰动和污染时模型的性能。本文旨在(1)探索KG是否能使LLM在开放式环境中更值得信赖,以及(2)进行比较分析以阐明方法设计。该研究旨在促进更全面的性能比较,并鼓励不断改进KG与LLM的集成,以减轻幻觉并提高LLM的可信度。代码和数据已在https://github.com/Y-Sui/OKGQA上发布。
🔬 方法详解
问题定义:现有的大语言模型在开放域问答中容易产生幻觉,即生成不真实或与知识图谱不一致的答案。现有的基准测试主要集中在封闭式任务,无法充分评估知识图谱在减少幻觉方面的作用,也难以反映真实世界场景的复杂性。因此,需要一个更具挑战性的基准来评估知识图谱增强的大语言模型在开放域问答中的可信度。
核心思路:论文的核心思路是通过构建一个更贴近真实世界的开放域问答基准测试OKGQA,来评估知识图谱增强的大语言模型的可信度。该基准测试包含多样的问题类型,并引入了量化幻觉率和推理改进的指标。此外,为了模拟知识图谱中可能存在的错误,论文还提出了一个基准变体OKGQA-P,用于评估模型在知识图谱受到扰动和污染时的性能。
技术框架:OKGQA基准测试包含以下几个主要组成部分:1) 多样的问题类型,涵盖事实性问题、推理问题和解释性问题等;2) 评估指标,包括准确率、幻觉率和推理能力等;3) OKGQA-P基准变体,用于评估模型在知识图谱存在错误时的鲁棒性。整体流程是,首先构建OKGQA数据集,然后使用知识图谱增强的大语言模型在该数据集上进行测试,最后根据评估指标评估模型的性能。
关键创新:该论文的关键创新在于提出了OKGQA和OKGQA-P两个新的基准测试,用于评估知识图谱增强的大语言模型在开放域问答中的可信度。与现有基准测试相比,OKGQA更贴近真实世界的应用场景,包含多样的问题类型和评估指标,能够更全面地评估模型的性能。OKGQA-P则考虑了知识图谱中可能存在的错误,能够评估模型在噪声环境下的鲁棒性。
关键设计:OKGQA数据集的构建过程未知。OKGQA-P基准变体通过对知识图谱的语义和结构进行扰动和污染来模拟知识图谱中可能存在的错误。具体的扰动和污染方法未知。评估指标包括准确率、幻觉率和推理能力等。具体的计算方法未知。
🖼️ 关键图片
📊 实验亮点
论文提出了OKGQA和OKGQA-P两个基准测试,用于评估知识图谱增强的大语言模型在开放域问答中的可信度。具体的实验结果未知,但论文强调了OKGQA能够更全面地评估模型的性能,OKGQA-P能够评估模型在噪声环境下的鲁棒性。未来的研究可以基于这两个基准测试,对不同的知识图谱增强方法进行比较分析,从而推动相关技术的发展。
🎯 应用场景
该研究成果可应用于提升大语言模型在开放域问答、智能客服、知识检索等领域的可靠性和准确性。通过使用知识图谱增强大语言模型,可以减少幻觉,提高回答的真实性和可信度,从而提升用户体验和应用价值。未来,该研究可以进一步扩展到其他领域,如医疗、金融等,为专业领域的知识问答提供更可靠的支持。
📄 摘要(原文)
Recent works integrating Knowledge Graphs (KGs) have shown promising improvements in enhancing the reasoning capabilities of Large Language Models (LLMs). However, existing benchmarks primarily focus on closed-ended tasks, leaving a gap in evaluating performance on more complex, real-world scenarios. This limitation also hinders a thorough assessment of KGs' potential to reduce hallucinations in LLMs. To address this, we introduce OKGQA, a new benchmark specifically designed to evaluate LLMs augmented with KGs in open-ended, real-world question answering settings. OKGQA reflects practical complexities through diverse question types and incorporates metrics to quantify both hallucination rates and reasoning improvements in LLM+KG models. To consider the scenarios in which KGs may contain varying levels of errors, we propose a benchmark variant, OKGQA-P, to assess model performance when the semantics and structure of KGs are deliberately perturbed and contaminated. In this paper, we aims to (1) explore whether KGs can make LLMs more trustworthy in an open-ended setting, and (2) conduct a comparative analysis to shed light on method design. We believe this study can facilitate a more complete performance comparison and encourages continuous improvement in integrating KGs with LLMs to mitigate hallucination, and make LLMs more trustworthy. Code and data are released at https://github.com/Y-Sui/OKGQA.