Influence Guided Context Selection for Effective Retrieval-Augmented Generation
作者: Jiale Deng, Yanyan Shen, Ziyuan Pei, Youmin Chen, Linpeng Huang
分类: cs.CL, cs.AI
发布日期: 2025-09-21 (更新: 2025-10-24)
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于上下文影响值引导的上下文选择方法,提升检索增强生成效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 上下文选择 数据价值评估 上下文影响值 大型语言模型
📋 核心要点
- 现有RAG方法受限于检索到的上下文质量,包含噪声信息,且缺乏对查询、上下文和生成器的综合利用。
- 论文提出上下文影响值(CI value)来量化上下文质量,通过评估移除上下文后的性能下降来选择高质量上下文。
- 实验表明,该方法在多个NLP任务和LLM上显著优于现有基线,有效过滤低质量上下文并保留关键信息。
📝 摘要(中文)
检索增强生成(RAG)通过外部知识来减少大型语言模型(LLM)的幻觉,但其有效性受到低质量检索上下文的影响,这些上下文包含不相关或噪声信息。现有方法试图通过基于预定义的上下文质量评估指标进行上下文选择来提高性能,但相对于标准RAG,其收益有限。我们将此限制归因于它们未能全面利用可用信息(查询、上下文列表和生成器)进行综合质量评估。受数据选择最新进展的启发,我们将上下文质量评估重新概念化为推理时的数据价值问题,并引入了上下文影响值(CI value)。这种新颖的指标通过测量从列表中删除每个上下文时的性能下降来量化上下文质量,有效地整合了查询感知的相关性、列表感知的唯一性和生成器感知的对齐。此外,CI value通过简单地保留具有正CI值的上下文来消除复杂的选择超参数调整。为了解决标签依赖性和计算开销的实际挑战,我们开发了一个参数化的代理模型,用于推理期间的CI value预测。该模型采用分层架构,捕获局部查询-上下文相关性和全局上下文间交互,通过oracle CI value监督和端到端生成器反馈进行训练。在8个NLP任务和多个LLM上的大量实验表明,我们的上下文选择方法显著优于最先进的基线,有效地过滤了低质量的上下文,同时保留了关键信息。
🔬 方法详解
问题定义:RAG系统受到检索到的上下文质量的影响,检索到的文档可能包含与查询无关或冗余的信息,导致生成结果质量下降。现有方法通常依赖于预定义的上下文质量评估指标,但未能充分利用查询、上下文列表和生成器之间的关系,导致性能提升有限。
核心思路:将上下文质量评估视为一个数据价值评估问题,通过衡量移除特定上下文对最终生成结果的影响来判断其重要性。核心思想是,如果移除某个上下文会导致性能显著下降,则该上下文具有较高的价值,应该被保留。
技术框架:整体框架包含三个主要部分:1) 计算每个上下文的CI value;2) 使用CI value选择上下文;3) 使用选择后的上下文进行生成。为了解决计算开销问题,论文训练了一个代理模型来预测CI value。该模型采用分层架构,首先计算局部查询-上下文相关性,然后考虑全局上下文间的交互。
关键创新:引入了上下文影响值(CI value)作为上下文质量的度量标准,该指标综合考虑了查询相关性、上下文唯一性和生成器对齐。与现有方法相比,CI value能够更全面地评估上下文的价值。此外,使用代理模型预测CI value,降低了计算复杂度。
关键设计:代理模型采用分层架构,包含局部相关性模块和全局交互模块。局部相关性模块计算查询和每个上下文之间的相关性得分。全局交互模块则考虑上下文之间的关系,例如冗余信息。代理模型通过oracle CI value监督和端到端生成器反馈进行训练。损失函数包括oracle CI value预测损失和生成器性能损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在8个NLP任务和多个LLM上显著优于现有基线。例如,在某些任务上,该方法可以将性能提升超过5%。通过消融实验验证了CI value的有效性,以及代理模型中局部相关性模块和全局交互模块的重要性。
🎯 应用场景
该研究成果可应用于各种需要检索增强生成技术的场景,例如问答系统、对话系统、文本摘要等。通过选择高质量的上下文,可以提高生成结果的准确性、相关性和流畅性,从而提升用户体验。该方法在知识密集型任务中具有重要的应用价值,例如医疗咨询、金融分析等。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) addresses large language model (LLM) hallucinations by grounding responses in external knowledge, but its effectiveness is compromised by poor-quality retrieved contexts containing irrelevant or noisy information. While existing approaches attempt to improve performance through context selection based on predefined context quality assessment metrics, they show limited gains over standard RAG. We attribute this limitation to their failure in holistically utilizing available information (query, context list, and generator) for comprehensive quality assessment. Inspired by recent advances in data selection, we reconceptualize context quality assessment as an inference-time data valuation problem and introduce the Contextual Influence Value (CI value). This novel metric quantifies context quality by measuring the performance degradation when removing each context from the list, effectively integrating query-aware relevance, list-aware uniqueness, and generator-aware alignment. Moreover, CI value eliminates complex selection hyperparameter tuning by simply retaining contexts with positive CI values. To address practical challenges of label dependency and computational overhead, we develop a parameterized surrogate model for CI value prediction during inference. The model employs a hierarchical architecture that captures both local query-context relevance and global inter-context interactions, trained through oracle CI value supervision and end-to-end generator feedback. Extensive experiments across 8 NLP tasks and multiple LLMs demonstrate that our context selection method significantly outperforms state-of-the-art baselines, effectively filtering poor-quality contexts while preserving critical information. Code is available at https://github.com/SJTU-DMTai/RAG-CSM.