Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style
作者: Yuepei Li, Kang Zhou, Qiao Qiao, Bach Nguyen, Qing Wang, Qi Li
分类: cs.CL, cs.AI
发布日期: 2024-09-17 (更新: 2025-07-10)
备注: This work is published at ACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
研究记忆强度和证据风格对大语言模型上下文忠实度的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 检索增强生成 上下文忠实度 记忆强度 证据风格
📋 核心要点
- 现有研究对大型语言模型(LLM)在检索增强生成(RAG)中如何保持上下文忠实度,以及影响因素的探索不足。
- 该研究通过量化LLM的记忆强度(对问题不同释义的响应差异)和改变证据呈现方式,来考察LLM对外部证据的接受程度。
- 实验结果表明,LLM对记忆强度高的问题更依赖内部记忆,且释义后的证据比简单重复或添加细节更能提高LLM的接受度。
📝 摘要(中文)
检索增强生成(RAG)通过将外部信息融入到响应生成过程中来改进大型语言模型(LLM)。然而,LLM的上下文忠实度如何,以及哪些因素影响LLM的上下文忠实度,在很大程度上仍未被探索。本研究调查了记忆强度和证据呈现方式对LLM接受外部证据的影响。我们通过测量LLM对同一问题的不同释义的响应差异来量化LLM的记忆强度,这是先前工作没有考虑到的。我们还生成各种风格的证据来检验LLM的行为。结果表明,对于记忆强度高的问题,LLM更倾向于依赖内部记忆。此外,与简单重复或添加细节相比,呈现释义后的证据显著提高了LLM的接受度。这些发现为改进检索增强生成和上下文感知LLM提供了关键见解。代码可在https://github.com/liyp0095/ContextFaithful 获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在检索增强生成(RAG)过程中,对外部信息的利用程度问题,即上下文忠实度。现有方法缺乏对LLM自身记忆强度和证据呈现方式对上下文忠实度影响的深入研究,导致RAG效果提升受限。
核心思路:论文的核心思路是通过量化LLM的记忆强度,并设计不同风格的证据呈现方式,来考察LLM对外部证据的接受程度。通过分析LLM在不同条件下的响应,揭示记忆强度和证据风格对上下文忠实度的影响机制。
技术框架:整体框架包含以下几个主要步骤:1) 构建包含问题及其释义的数据集;2) 使用不同的证据呈现方式(重复、添加细节、释义)生成外部证据;3) 将问题和证据输入LLM,观察LLM的响应;4) 通过比较LLM对不同问题释义的响应差异来量化记忆强度;5) 分析不同记忆强度和证据风格下,LLM对外部证据的接受程度。
关键创新:论文最重要的技术创新点在于提出了量化LLM记忆强度的方法,即通过测量LLM对同一问题的不同释义的响应差异。这种方法能够更准确地评估LLM对内部知识的依赖程度,从而更好地理解其在RAG过程中对外部信息的利用行为。与现有方法相比,该方法考虑了LLM自身记忆的影响,更全面地评估了上下文忠实度。
关键设计:论文的关键设计包括:1) 使用问题释义来评估记忆强度;2) 设计三种证据呈现方式:简单重复、添加细节和释义;3) 使用合适的指标来衡量LLM对外部证据的接受程度,例如生成答案与提供证据的相关性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,对于记忆强度高的问题,LLM更倾向于依赖内部记忆。更重要的是,与简单重复或添加细节相比,呈现释义后的证据显著提高了LLM的接受度。这表明,通过改变证据的呈现方式,可以有效地引导LLM更多地利用外部知识,从而提高RAG的性能。具体提升幅度未知。
🎯 应用场景
该研究成果可应用于改进检索增强生成(RAG)系统,提高LLM在知识密集型任务中的性能,例如问答系统、知识图谱推理等。通过优化证据呈现方式,可以引导LLM更多地利用外部知识,减少对内部记忆的过度依赖,从而提高生成结果的准确性和可靠性。此外,该研究对于开发更具上下文感知能力的LLM具有指导意义。
📄 摘要(原文)
Retrieval-augmented generation (RAG) improves Large Language Models (LLMs) by incorporating external information into the response generation process. However, how context-faithful LLMs are and what factors influence LLMs' context faithfulness remain largely unexplored. In this study, we investigate the impact of memory strength and evidence presentation on LLMs' receptiveness to external evidence. We quantify the memory strength of LLMs by measuring the divergence in LLMs' responses to different paraphrases of the same question, which is not considered by previous works. We also generate evidence in various styles to examine LLMs' behavior. Our results show that for questions with high memory strength, LLMs are more likely to rely on internal memory. Furthermore, presenting paraphrased evidence significantly increases LLMs' receptiveness compared to simple repetition or adding details. These findings provide key insights for improving retrieval-augmented generation and context-aware LLMs. Our code is available at https://github.com/liyp0095/ContextFaithful.