WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia

📄 arXiv: 2406.13805v1 📥 PDF

作者: Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi, Prasanna Sattigeri

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-19


💡 一句话要点

WikiContradict:一个评估LLM在维基百科知识冲突处理能力的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识冲突 检索增强生成 维基百科 基准数据集

📋 核心要点

  1. 大型语言模型在处理知识冲突时存在不足,尤其是在检索增强生成(RAG)场景下,模型难以区分和处理来自同一来源的矛盾信息。
  2. 论文提出了WikiContradict基准,包含人工标注的、来自维基百科的知识冲突实例,用于评估LLM在处理真实世界知识冲突时的表现。
  3. 实验结果表明,现有LLM在处理矛盾信息时表现不佳,尤其是在需要推理的隐式冲突场景下,同时论文提出了一个自动评估指标,并达到了0.8的F-score。

📝 摘要(中文)

检索增强生成(RAG)已成为缓解大型语言模型(LLM)局限性(如幻觉和过时信息)的一种有前景的解决方案。然而,LLM如何处理来自不同检索段落的知识冲突仍然不清楚,特别是当这些段落来自同一来源且具有同等可信度时。本文对LLM生成的答案进行了全面评估,这些答案基于来自维基百科的矛盾段落,维基百科是大多数LLM高质量预训练资源。具体来说,我们引入了WikiContradict,一个包含253个高质量人工标注实例的基准,旨在评估LLM在检索增强包含真实世界知识冲突的段落时的性能。我们在不同的QA场景下对各种封闭和开源LLM进行了基准测试,包括单段落RAG和双矛盾段落RAG。通过对WikiContradict实例子集(涉及5个LLM和超过3500个判断)的严格人工评估,我们阐明了这些模型的行为和局限性。例如,当提供包含矛盾事实的两个段落时,所有模型都难以生成准确反映上下文冲突性质的答案,特别是对于需要推理的隐式冲突。由于人工评估成本高昂,我们还引入了一个自动模型,该模型使用强大的开源语言模型来估计LLM性能,实现了0.8的F-score。使用这种自动指标,我们评估了来自七个LLM的超过1500个答案。为了方便未来的工作,我们在https://ibm.biz/wikicontradict上发布了WikiContradict。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在检索增强生成(RAG)场景下,难以有效处理来自同一来源但内容相互矛盾的信息。这些矛盾信息可能导致LLM生成不准确或不一致的答案,尤其是在需要进行推理才能识别冲突的情况下。现有的方法缺乏对LLM处理此类知识冲突能力的系统评估。

核心思路:论文的核心思路是构建一个专门用于评估LLM在处理知识冲突方面能力的基准数据集,即WikiContradict。该数据集包含来自维基百科的、经过人工标注的矛盾信息实例。通过评估LLM在这些实例上的表现,可以深入了解其在处理真实世界知识冲突方面的局限性。

技术框架:WikiContradict基准的构建流程主要包括以下几个阶段:1) 从维基百科中识别潜在的知识冲突;2) 对这些冲突进行人工标注,确保其质量和准确性;3) 构建包含问题、矛盾段落和参考答案的实例;4) 使用这些实例评估各种LLM的性能,包括封闭和开源模型;5) 提出一种自动评估指标,用于降低人工评估的成本。整体框架侧重于构建高质量的评估数据集,并提供人工和自动两种评估方法。

关键创新:论文的关键创新在于构建了WikiContradict基准,这是一个专门用于评估LLM在处理真实世界知识冲突方面能力的资源。与现有的评估数据集不同,WikiContradict侧重于来自同一来源的矛盾信息,更贴近实际应用场景。此外,论文还提出了一种自动评估指标,可以有效降低评估成本。

关键设计:WikiContradict数据集包含253个高质量的人工标注实例。每个实例包含一个问题、两个包含矛盾信息的维基百科段落,以及参考答案。在评估LLM性能时,论文采用了不同的QA场景,包括单段落RAG和双矛盾段落RAG。自动评估指标基于一个强大的开源语言模型,通过比较LLM生成的答案和参考答案来评估其准确性和一致性。具体的技术细节包括使用F-score作为评估指标,以及对不同LLM进行参数调优以获得最佳性能(具体参数设置未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在处理WikiContradict数据集中的矛盾信息时表现不佳,尤其是在需要推理的隐式冲突场景下。人工评估显示,所有模型都难以生成准确反映上下文冲突性质的答案。论文提出的自动评估指标达到了0.8的F-score,可以有效降低人工评估的成本。该自动评估指标在评估LLM处理知识冲突的能力方面具有较高的可靠性。

🎯 应用场景

该研究成果可应用于提升LLM在信息检索和问答系统中的可靠性和准确性。通过使用WikiContradict基准评估和改进LLM,可以减少模型产生幻觉和错误信息的风险,尤其是在处理来自不同来源的冲突信息时。这对于需要高度准确性的应用场景,如医疗诊断、金融分析和法律咨询等,具有重要意义。

📄 摘要(原文)

Retrieval-augmented generation (RAG) has emerged as a promising solution to mitigate the limitations of large language models (LLMs), such as hallucinations and outdated information. However, it remains unclear how LLMs handle knowledge conflicts arising from different augmented retrieved passages, especially when these passages originate from the same source and have equal trustworthiness. In this work, we conduct a comprehensive evaluation of LLM-generated answers to questions that have varying answers based on contradictory passages from Wikipedia, a dataset widely regarded as a high-quality pre-training resource for most LLMs. Specifically, we introduce WikiContradict, a benchmark consisting of 253 high-quality, human-annotated instances designed to assess LLM performance when augmented with retrieved passages containing real-world knowledge conflicts. We benchmark a diverse range of both closed and open-source LLMs under different QA scenarios, including RAG with a single passage, and RAG with 2 contradictory passages. Through rigorous human evaluations on a subset of WikiContradict instances involving 5 LLMs and over 3,500 judgements, we shed light on the behaviour and limitations of these models. For instance, when provided with two passages containing contradictory facts, all models struggle to generate answers that accurately reflect the conflicting nature of the context, especially for implicit conflicts requiring reasoning. Since human evaluation is costly, we also introduce an automated model that estimates LLM performance using a strong open-source language model, achieving an F-score of 0.8. Using this automated metric, we evaluate more than 1,500 answers from seven LLMs across all WikiContradict instances. To facilitate future work, we release WikiContradict on: https://ibm.biz/wikicontradict.