FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows"

作者: Yifei Ming, Senthil Purushwalkam, Shrey Pandit, Zixuan Ke, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-30 (更新: 2025-04-24)

备注: The conference version of this paper is published at ICLR 2025

🔗 代码/项目: GITHUB

💡 一句话要点

FaithEval：评估语言模型在不一致上下文中的忠实度，揭示现有模型在此方面的不足

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 忠实度评估 检索增强生成 幻觉问题 基准数据集

📋 核心要点

现有LLM和RAG系统在处理不一致或虚假信息时，容易产生与上下文不符的幻觉，影响用户信任。
FaithEval构建了一个包含无法回答、不一致和反事实上下文的综合基准，用于评估模型对上下文的忠实度。
实验表明，即使是大型先进模型在FaithEval上也表现不佳，表明模型大小与忠实度之间没有必然联系。

📝 摘要（中文）

大型语言模型（LLM）和检索增强生成（RAG）系统中，确保对上下文的忠实性至关重要，因为不正确或不支持的信息会削弱用户信任。尽管在标准基准测试中取得了进展，但忠实性幻觉——模型生成与提供的上下文不一致的响应——仍然是一个重大挑战。本文提出了FaithEval，这是一个新颖而全面的基准，旨在评估LLM在各种上下文场景中的忠实性，涵盖三种不同的任务：无法回答、不一致和反事实上下文。这些任务模拟了检索机制可能出现不完整、矛盾或捏造信息的现实挑战。FaithEval总共包含4.9K个高质量问题，通过严格的四阶段上下文构建和验证框架进行验证，该框架采用基于LLM的自动评估和人工验证。对各种开源和专有模型的广泛研究表明，即使是最先进的模型也常常难以保持对给定上下文的忠实性，并且更大的模型并不一定表现出更高的忠实性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在检索增强生成（RAG）系统中，对上下文信息不忠实的问题。现有方法在处理包含不完整、矛盾或虚假信息的上下文时，容易产生与上下文不一致的幻觉，导致生成错误或误导性的答案。这种不忠实性严重影响了LLM在实际应用中的可靠性和用户信任度。

核心思路：FaithEval的核心思路是构建一个具有挑战性的基准数据集，该数据集包含三种类型的上下文：无法回答、不一致和反事实上下文。通过评估LLM在这些上下文下的表现，可以更全面地衡量其对上下文的忠实度。这种方法旨在模拟现实世界中检索系统可能遇到的各种信息质量问题。

技术框架：FaithEval的构建流程包含四个主要阶段：1) 问题生成：使用LLM生成与特定主题相关的问题。2) 上下文构建：为每个问题创建三种类型的上下文（无法回答、不一致和反事实）。3) 自动评估：使用LLM自动评估模型生成的答案与上下文的一致性。4) 人工验证：对自动评估结果进行人工验证，确保数据集的质量。整个框架旨在创建一个高质量、具有挑战性的基准，用于评估LLM的忠实度。

关键创新：FaithEval的关键创新在于其对上下文类型的细致划分和对数据集构建流程的严格控制。通过引入无法回答、不一致和反事实上下文，FaithEval能够更全面地评估LLM在不同信息质量下的表现。此外，结合LLM自动评估和人工验证，确保了数据集的高质量和可靠性。

关键设计：FaithEval数据集包含4.9K个问题，涵盖多个主题。在上下文构建阶段，使用不同的策略生成三种类型的上下文。例如，对于反事实上下文，通过修改事实陈述来创建与问题相关的错误信息。在自动评估阶段，使用预训练的LLM作为评估器，判断模型生成的答案是否与上下文一致。人工验证阶段，由人工标注员对自动评估结果进行复核，确保数据集的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是大型的、最先进的LLM在FaithEval上也表现出显著的忠实性问题。例如，在处理不一致上下文时，许多模型未能识别出上下文中的矛盾信息，并生成了与上下文不一致的答案。此外，实验还发现，模型大小与忠实度之间没有必然联系，表明仅仅增加模型参数并不能有效解决忠实性问题。这些结果突显了FaithEval在评估和改进LLM忠实度方面的重要性。

🎯 应用场景

FaithEval可用于评估和改进LLM在各种实际应用中的可靠性，例如问答系统、信息检索和对话生成。通过提高模型对上下文的忠实度，可以减少错误信息的传播，增强用户信任，并促进LLM在医疗、金融等关键领域的应用。该基准还可以促进对LLM幻觉现象的深入研究，推动相关技术的进步。

📄 摘要（原文）

Ensuring faithfulness to context in large language models (LLMs) and retrieval-augmented generation (RAG) systems is crucial for reliable deployment in real-world applications, as incorrect or unsupported information can erode user trust. Despite advancements on standard benchmarks, faithfulness hallucination-where models generate responses misaligned with the provided context-remains a significant challenge. In this work, we introduce FaithEval, a novel and comprehensive benchmark tailored to evaluate the faithfulness of LLMs in contextual scenarios across three diverse tasks: unanswerable, inconsistent, and counterfactual contexts. These tasks simulate real-world challenges where retrieval mechanisms may surface incomplete, contradictory, or fabricated information. FaithEval comprises 4.9K high-quality problems in total, validated through a rigorous four-stage context construction and validation framework, employing both LLM-based auto-evaluation and human validation. Our extensive study across a wide range of open-source and proprietary models reveals that even state-of-the-art models often struggle to remain faithful to the given context, and that larger models do not necessarily exhibit improved faithfulness.Project is available at: https://github.com/SalesforceAIResearch/FaithEval.

FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows"

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理