MaxShapley: Towards Incentive-compatible Generative Search with Fair Context Attribution

📄 arXiv: 2512.05958v1 📥 PDF

作者: Sara Patel, Mingxun Zhou, Giulia Fanti

分类: cs.LG, cs.AI

发布日期: 2025-12-05


💡 一句话要点

提出MaxShapley算法,用于检索增强生成搜索中的激励兼容和公平内容归因。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式搜索 检索增强生成 Shapley值 公平归因 激励机制

📋 核心要点

  1. 现有生成式搜索缺乏公平的内容归因机制,难以激励内容提供者。
  2. MaxShapley利用可分解的最大和效用函数,实现Shapley值的线性时间复杂度计算。
  3. 实验表明,MaxShapley在保证归因质量的同时,显著降低了资源消耗。

📝 摘要(中文)

基于大型语言模型(LLM)的生成式搜索引擎正在取代传统搜索,从根本上改变了信息提供者的补偿方式。为了维持这个生态系统,我们需要公平的机制来根据内容提供者对生成答案的贡献进行归因和补偿。我们介绍了一种名为MaxShapley的高效算法,用于在使用检索增强生成(RAG)的生成式搜索管道中进行公平归因。MaxShapley是著名的Shapley值的一个特例;它利用可分解的最大和效用函数,以文档数量的线性计算来计算归因,而不是Shapley值的指数成本。我们在三个多跳QA数据集(HotPotQA, MuSiQUE, MS MARCO)上评估了MaxShapley;MaxShapley实现了与精确Shapley计算相当的归因质量,同时消耗了其一小部分的token--例如,在相同的归因精度下,它比先前的最先进方法减少了高达8倍的资源消耗。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)框架下,如何公平地将生成答案的功劳归于不同的文档提供者的问题。现有方法,如直接使用Shapley值,计算复杂度高,难以应用于大规模文档集。这导致内容提供者缺乏激励,影响生成式搜索生态系统的可持续发展。

核心思路:论文的核心思路是利用Shapley值的一个特例,即MaxShapley,来降低计算复杂度。MaxShapley通过假设一个可分解的最大和效用函数,将原本指数级的计算复杂度降低到线性级别。这种设计使得在大规模文档集上进行公平归因成为可能。

技术框架:MaxShapley算法应用于检索增强生成(RAG)的流程中。首先,用户提出问题,系统检索相关文档。然后,LLM基于检索到的文档生成答案。MaxShapley算法分析每个文档对最终答案的贡献,并进行公平归因。整体框架与标准的RAG流程一致,MaxShapley作为其中的一个关键模块,负责贡献评估。

关键创新:最重要的技术创新点在于MaxShapley算法本身,它是一种高效的Shapley值近似计算方法。与直接计算Shapley值相比,MaxShapley通过对效用函数进行约束,显著降低了计算复杂度,使其能够应用于大规模文档集。与现有其他近似方法相比,MaxShapley在保证归因质量的同时,实现了更高的计算效率。

关键设计:MaxShapley的关键设计在于其可分解的最大和效用函数。具体来说,假设最终答案的效用是每个文档贡献的最大值之和。这种假设允许将Shapley值的计算分解为线性时间复杂度的操作。此外,论文还可能涉及一些参数调优,以平衡归因的准确性和计算效率,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MaxShapley在三个多跳QA数据集(HotPotQA、MuSiQUE、MS MARCO)上实现了与精确Shapley计算相当的归因质量,同时显著降低了资源消耗。例如,在相同的归因精度下,MaxShapley比先前的最先进方法减少了高达8倍的token消耗。这些结果验证了MaxShapley算法的有效性和高效性。

🎯 应用场景

MaxShapley算法可应用于各种基于检索增强生成(RAG)的生成式搜索场景,例如问答系统、知识图谱构建、内容推荐等。通过公平地评估和奖励内容提供者,可以激励他们提供更高质量的信息,从而提升生成式搜索的整体性能和用户体验。该研究有助于构建更可持续和公平的生成式搜索生态系统。

📄 摘要(原文)

Generative search engines based on large language models (LLMs) are replacing traditional search, fundamentally changing how information providers are compensated. To sustain this ecosystem, we need fair mechanisms to attribute and compensate content providers based on their contributions to generated answers. We introduce MaxShapley, an efficient algorithm for fair attribution in generative search pipelines that use retrieval-augmented generation (RAG). MaxShapley is a special case of the celebrated Shapley value; it leverages a decomposable max-sum utility function to compute attributions with linear computation in the number of documents, as opposed to the exponential cost of Shapley values. We evaluate MaxShapley on three multi-hop QA datasets (HotPotQA, MuSiQUE, MS MARCO); MaxShapley achieves comparable attribution quality to exact Shapley computation, while consuming a fraction of its tokens--for instance, it gives up to an 8x reduction in resource consumption over prior state-of-the-art methods at the same attribution accuracy.