KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions

📄 arXiv: 2407.05868v2 📥 PDF

作者: Yanxu Zhu, Jinlin Xiao, Yuhang Wang, Jitao Sang

分类: cs.CL, cs.AI

发布日期: 2024-07-08 (更新: 2024-12-22)

备注: COLING2025 main

🔗 代码/项目: GITHUB


💡 一句话要点

提出KG-FPQ,利用知识图谱自动生成虚假前提问题,评估LLM的事实性幻觉

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性幻觉 知识图谱 虚假前提问题 自动化评估

📋 核心要点

  1. 现有评估LLM事实性幻觉的基准依赖手动构建FPQ,存在规模小、可扩展性差的问题。
  2. 论文提出一种基于知识图谱的自动化FPQ生成方法,利用GPTs生成语义丰富的虚假前提问题。
  3. 构建了包含178k个FPQ的大规模基准KG-FPQ,并评估了多个LLM,提供了有价值的分析结果。

📝 摘要(中文)

最近的研究表明,大型语言模型(LLM)容易被虚假前提问题(FPQ)误导,从而导致事实知识方面的错误,即事实性幻觉。现有的评估这种脆弱性的基准主要依赖于手动构建,导致规模有限且缺乏可扩展性。本文介绍了一种自动化的、可扩展的流水线,用于基于知识图谱(KG)创建FPQ。第一步是修改从KG中提取的真实三元组以创建虚假前提。随后,利用GPTs最先进的能力,我们生成语义丰富的FPQ。基于所提出的方法,我们提出了一个全面的基准,即基于知识图谱的虚假前提问题(KG-FPQ),它包含跨三个知识领域、六个可混淆级别和两种任务格式的约178k个FPQ。使用KG-FPQ,我们对几个具有代表性的LLM进行了广泛的评估,并提供了有价值的见解。KG-FPQ数据集和代码可在https://github.com/yanxuzhu/KG-FPQ获得。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中事实性幻觉的评估问题。现有方法主要依赖人工构建虚假前提问题(FPQ),这种方法成本高昂、效率低下,难以扩展到大规模数据集,并且可能存在主观偏差。因此,需要一种自动化的、可扩展的方法来生成高质量的FPQ,从而更全面地评估LLM的事实性幻觉。

核心思路:论文的核心思路是利用知识图谱(KG)中存储的结构化知识,自动生成FPQ。具体来说,首先从KG中提取真实的三元组(例如,<巴黎,首都,法国>),然后通过修改这些三元组中的实体或关系来创建虚假前提(例如,<巴黎,首都,德国>)。随后,利用大型语言模型(如GPTs)的文本生成能力,将这些虚假前提转化为自然语言形式的FPQ。

技术框架:KG-FPQ的整体框架包含以下几个主要步骤:1) 知识图谱选择与三元组提取:选择合适的知识图谱(如Wikidata、ConceptNet等),并从中提取真实的三元组。2) 虚假前提生成:通过替换或修改真实三元组中的实体或关系,生成虚假前提。论文设计了多种修改策略,以控制FPQ的难度和可混淆性。3) 问题生成:利用GPTs等大型语言模型,将虚假前提转化为自然语言形式的FPQ。通过prompt engineering,可以控制生成问题的风格和质量。4) 基准构建与评估:将生成的FPQ组成基准数据集,用于评估不同LLM的事实性幻觉。

关键创新:该论文的关键创新在于提出了一种基于知识图谱的自动化FPQ生成方法,该方法具有以下优点:1) 自动化与可扩展性:无需人工干预,可以自动生成大规模的FPQ数据集。2) 可控性:可以通过控制虚假前提的生成策略,调整FPQ的难度和可混淆性。3) 多样性:可以利用不同的知识图谱和修改策略,生成多样化的FPQ。与现有方法相比,该方法更加高效、可扩展,并且可以生成更具挑战性的FPQ。

关键设计:在虚假前提生成阶段,论文设计了多种修改策略,包括:1) 实体替换:将三元组中的实体替换为其他实体。2) 关系替换:将三元组中的关系替换为其他关系。3) 否定:在三元组中添加否定词。在问题生成阶段,论文使用了GPT-3等大型语言模型,并采用了prompt engineering技术,以控制生成问题的风格和质量。例如,可以使用不同的prompt来生成不同类型的FPQ(如是非题、选择题等)。此外,论文还设计了一种可混淆性度量,用于评估FPQ的难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KG-FPQ基准包含约178k个FPQ,涵盖三个知识领域和六个可混淆级别。实验结果表明,现有LLM在KG-FPQ上表现不佳,容易受到虚假前提的误导,表明LLM的事实性仍然是一个挑战。例如,在某些可混淆级别上,LLM的准确率低于50%,凸显了KG-FPQ的有效性和LLM的脆弱性。

🎯 应用场景

KG-FPQ可用于评估和提高大型语言模型的事实性,降低其在知识密集型任务中产生幻觉的风险。该基准可以应用于问答系统、知识图谱补全、信息检索等领域,帮助开发更可靠、更值得信赖的AI系统。未来,该方法可以扩展到其他类型的知识表示和任务,进一步提升LLM的知识推理能力。

📄 摘要(原文)

Recent studies have demonstrated that large language models (LLMs) are susceptible to being misled by false premise questions (FPQs), leading to errors in factual knowledge, know as factuality hallucination. Existing benchmarks that assess this vulnerability primarily rely on manual construction, resulting in limited scale and lack of scalability. In this work, we introduce an automated, scalable pipeline to create FPQs based on knowledge graphs (KGs). The first step is modifying true triplets extracted from KGs to create false premises. Subsequently, utilizing the state-of-the-art capabilities of GPTs, we generate semantically rich FPQs. Based on the proposed method, we present a comprehensive benchmark, the Knowledge Graph-based False Premise Questions (KG-FPQ), which contains approximately 178k FPQs across three knowledge domains, at six levels of confusability, and in two task formats. Using KG-FPQ, we conduct extensive evaluations on several representative LLMs and provide valuable insights. The KG-FPQ dataset and code are available at~https://github.com/yanxuzhu/KG-FPQ.