To Trust or Not to Trust? Enhancing Large Language Models' Situated Faithfulness to External Contexts
作者: Yukun Huang, Sanxing Chen, Hongyi Cai, Bhuwan Dhingra
分类: cs.CL, cs.AI
发布日期: 2024-10-18 (更新: 2025-03-17)
💡 一句话要点
提升大语言模型情境忠实度:基于置信度推理解决外部知识冲突
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 情境忠实度 检索增强生成 置信度推理 知识冲突
📋 核心要点
- 现有检索增强生成(RAG)等方法易受错误或误导性外部信息影响,导致大语言模型过度依赖外部信息,忽略自身知识。
- 论文提出自引导置信度推理(SCR)和基于规则的置信度推理(RCR)两种方法,动态调整模型对外部信息的信任度,解决知识冲突。
- 实验表明,SCR在强推理模型(如GPT-4o)上表现优异,RCR在小型模型(如Llama-3-8B)上更有效,并通过CR-DPO微调进一步提升性能。
📝 摘要(中文)
大语言模型(LLMs)通常会使用外部上下文进行增强,例如检索增强生成(RAG)。然而,这些上下文可能不准确或具有误导性,导致与模型内部知识冲突。我们认为,鲁棒的LLMs应该展现情境忠实度,根据对内部知识和外部上下文的置信度动态调整对外部信息的信任,以解决知识冲突。为了评估这种能力,我们在多个QA数据集上评估LLMs,包括一个新创建的、包含来自Reddit帖子中的真实错误上下文的数据集。结果表明,当提供正确和错误上下文时,开源和专有模型都倾向于过度依赖外部信息,而忽略其准确性。为了提高情境忠实度,我们提出了两种方法:自引导置信度推理(SCR)和基于规则的置信度推理(RCR)。SCR使模型能够自我评估外部信息相对于其内部知识的置信度,从而产生最准确的答案。RCR则从LLM中提取显式置信度信号,并使用预定义的规则确定最终答案。结果表明,对于具有强大推理能力的LLMs,如GPT-4o和GPT-4o mini,SCR优于RCR,与直接输入增强基线相比,提升高达24.2%。相反,对于像Llama-3-8B这样的小型模型,RCR优于SCR。使用我们提出的置信度推理直接偏好优化(CR-DPO)方法对SCR进行微调,可以提高在已见和未见数据集上的性能,在Llama-3-8B上平均提升8.9%。除了定量结果外,我们还深入分析了SCR和RCR的相对优势。
🔬 方法详解
问题定义:论文旨在解决大语言模型在检索增强生成等场景中,过度依赖外部信息而忽略自身知识,导致回答不准确的问题。现有方法缺乏对外部信息置信度的有效评估和动态调整机制,容易受到错误或误导性信息的影响。
核心思路:论文的核心思路是让大语言模型能够评估外部信息相对于自身知识的置信度,并根据置信度动态调整对外部信息的信任程度。通过引入置信度推理机制,使模型在面对知识冲突时,能够做出更明智的判断,从而提高回答的准确性和可靠性。
技术框架:整体框架包含以下几个主要阶段:1) 输入:将问题和外部上下文信息输入大语言模型。2) 置信度评估:使用SCR或RCR方法评估外部信息相对于模型自身知识的置信度。3) 决策:根据置信度评估结果,决定是否采纳外部信息,并生成最终答案。4) CR-DPO微调(可选):使用CR-DPO方法对SCR进行微调,进一步提升性能。
关键创新:论文的关键创新在于提出了两种置信度推理方法:SCR和RCR。SCR通过让模型自我评估外部信息的置信度,实现动态信任调整。RCR则通过提取显式置信度信号,并使用预定义规则进行决策。与现有方法相比,这两种方法能够更有效地解决知识冲突,提高回答的准确性。
关键设计:SCR的关键设计在于如何引导模型进行置信度评估。论文通过设计特定的prompt,让模型输出外部信息的可信度评分,并根据评分调整对外部信息的权重。RCR的关键设计在于如何提取显式置信度信号,以及如何设计预定义规则。论文通过分析模型的输出,提取出与置信度相关的关键词,并根据这些关键词设计规则,用于判断外部信息的可信度。CR-DPO微调的关键在于设计合适的奖励函数,鼓励模型生成更准确的答案。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SCR在GPT-4o和GPT-4o mini等强推理模型上表现优异,与直接输入增强基线相比,提升高达24.2%。RCR在Llama-3-8B等小型模型上更有效。使用CR-DPO方法对SCR进行微调,可以提高在已见和未见数据集上的性能,在Llama-3-8B上平均提升8.9%。这些结果表明,论文提出的方法能够有效提高大语言模型的情境忠实度。
🎯 应用场景
该研究成果可应用于各种需要检索增强生成的大语言模型应用场景,例如智能问答、信息检索、对话系统等。通过提高模型对外部信息的辨别能力,可以有效减少错误信息的传播,提高用户体验,并增强模型在实际应用中的可靠性。未来,该研究可以进一步扩展到其他类型的外部知识源,例如知识图谱、数据库等。
📄 摘要(原文)
Large Language Models (LLMs) are often augmented with external contexts, such as those used in retrieval-augmented generation (RAG). However, these contexts can be inaccurate or intentionally misleading, leading to conflicts with the model's internal knowledge. We argue that robust LLMs should demonstrate situated faithfulness, dynamically calibrating their trust in external information based on their confidence in the internal knowledge and the external context to resolve knowledge conflicts. To benchmark this capability, we evaluate LLMs across several QA datasets, including a newly created dataset featuring in-the-wild incorrect contexts sourced from Reddit posts. We show that when provided with both correct and incorrect contexts, both open-source and proprietary models tend to overly rely on external information, regardless of its factual accuracy. To enhance situated faithfulness, we propose two approaches: Self-Guided Confidence Reasoning (SCR) and Rule-Based Confidence Reasoning (RCR). SCR enables models to self-assess the confidence of external information relative to their own internal knowledge to produce the most accurate answer. RCR, in contrast, extracts explicit confidence signals from the LLM and determines the final answer using predefined rules. Our results show that for LLMs with strong reasoning capabilities, such as GPT-4o and GPT-4o mini, SCR outperforms RCR, achieving improvements of up to 24.2% over a direct input augmentation baseline. Conversely, for a smaller model like Llama-3-8B, RCR outperforms SCR. Fine-tuning SCR with our proposed Confidence Reasoning Direct Preference Optimization (CR-DPO) method improves performance on both seen and unseen datasets, yielding an average improvement of 8.9% on Llama-3-8B. In addition to quantitative results, we offer insights into the relative strengths of SCR and RCR.