Source Attribution in Retrieval-Augmented Generation

📄 arXiv: 2507.04480v1 📥 PDF

作者: Ikhtiyor Nematov, Tarik Kalai, Elizaveta Kuzmenko, Gabriele Fugagnoli, Dimitris Sacharidis, Katja Hose, Tomer Sagi

分类: cs.LG, cs.AI

发布日期: 2025-07-06


💡 一句话要点

针对RAG系统,提出基于Shapley值的文档溯源方法,提升可解释性并降低计算成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG Shapley值 文档溯源 可解释性 大型语言模型 LLM 归因方法

📋 核心要点

  1. 现有归因方法在RAG系统中应用面临计算成本高的挑战,每次评估都需要调用昂贵的LLM。
  2. 本文探索将Shapley值及其近似方法应用于RAG文档溯源,旨在降低计算成本并保持归因的准确性。
  3. 通过实验对比Shapley值、近似方法和现有归因方法,评估其在识别关键文档和解释文档间关系方面的有效性。

📝 摘要(中文)

本文研究了将Shapley值应用于检索增强生成(RAG)系统中,以识别有影响力的检索文档的可行性和有效性。由于每次效用函数评估都需要昂贵的LLM调用,导致计算成本巨大,因此直接应用Shapley值面临挑战。本文比较了Shapley值与计算复杂度更低的近似方法,以及现有的LLM归因方法。研究旨在:(1)系统地将已建立的归因原则应用于RAG文档级别设置;(2)量化SHAP近似在多大程度上可以反映精确归因,同时最大限度地减少昂贵的LLM交互;(3)评估它们在识别关键文档方面的实际可解释性,尤其是在复杂的文档间关系(如冗余、互补和协同作用)下。本研究旨在弥合强大的归因技术与基于LLM的RAG系统的实际约束之间的差距,为实现可靠且经济实惠的RAG可解释性提供见解。

🔬 方法详解

问题定义:论文旨在解决RAG系统中检索文档溯源的问题,即确定哪些检索到的文档对最终生成结果影响最大。现有方法,如直接应用Shapley值,计算复杂度高,因为每次评估都需要调用大型语言模型(LLM),这在时间和金钱上都是昂贵的。因此,需要一种既能提供准确归因,又能降低计算成本的方法。

核心思路:论文的核心思路是探索使用Shapley值的近似方法来降低计算成本,同时尽可能保持归因的准确性。通过比较不同的Shapley值近似方法,以及现有的LLM归因方法,来评估它们在RAG文档溯源任务中的性能。目标是找到一种在计算成本和归因准确性之间取得良好平衡的方法。

技术框架:论文的技术框架主要包括以下几个步骤:1)构建RAG系统,包括检索模块和生成模块;2)选择合适的Shapley值近似方法和现有的LLM归因方法;3)设计实验来评估这些方法在RAG文档溯源任务中的性能,包括归因准确性和计算成本;4)分析实验结果,比较不同方法的优缺点,并提出改进建议。

关键创新:论文的关键创新在于系统地将Shapley值及其近似方法应用于RAG文档溯源任务,并评估了它们在实际应用中的可行性和有效性。此外,论文还研究了不同文档间关系(如冗余、互补和协同作用)对归因结果的影响,这对于理解RAG系统的行为至关重要。

关键设计:论文的关键设计包括:1)选择合适的Shapley值近似方法,例如KernelSHAP等;2)设计合适的评估指标,例如归因准确性和计算成本;3)构建具有代表性的数据集,包含不同类型的文档间关系;4)仔细调整LLM的参数,以确保生成结果的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验对比了Shapley值、近似方法和现有归因方法在RAG文档溯源任务中的性能。实验结果表明,某些Shapley值近似方法可以在显著降低计算成本的同时,保持较高的归因准确性。此外,实验还揭示了不同文档间关系对归因结果的影响,为进一步改进RAG系统的可解释性提供了指导。

🎯 应用场景

该研究成果可应用于提升RAG系统的可解释性和可靠性。通过准确识别关键文档,可以帮助用户理解LLM的生成过程,并发现潜在的偏见或错误信息。此外,降低计算成本的归因方法可以促进RAG系统在资源受限环境中的应用,例如移动设备或边缘计算。

📄 摘要(原文)

While attribution methods, such as Shapley values, are widely used to explain the importance of features or training data in traditional machine learning, their application to Large Language Models (LLMs), particularly within Retrieval-Augmented Generation (RAG) systems, is nascent and challenging. The primary obstacle is the substantial computational cost, where each utility function evaluation involves an expensive LLM call, resulting in direct monetary and time expenses. This paper investigates the feasibility and effectiveness of adapting Shapley-based attribution to identify influential retrieved documents in RAG. We compare Shapley with more computationally tractable approximations and some existing attribution methods for LLM. Our work aims to: (1) systematically apply established attribution principles to the RAG document-level setting; (2) quantify how well SHAP approximations can mirror exact attributions while minimizing costly LLM interactions; and (3) evaluate their practical explainability in identifying critical documents, especially under complex inter-document relationships such as redundancy, complementarity, and synergy. This study seeks to bridge the gap between powerful attribution techniques and the practical constraints of LLM-based RAG systems, offering insights into achieving reliable and affordable RAG explainability.