ShapE-GRPO: Shapley-Enhanced Reward Allocation for Multi-Candidate LLM Training
作者: Rui Ai, Yu Pan, David Simchi-Levi, Chonghuan Wang
分类: cs.AI
发布日期: 2026-03-31
💡 一句话要点
ShapE-GRPO:利用Shapley值优化多候选LLM训练中的奖励分配
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 强化学习 奖励分配 Shapley值 多候选生成
📋 核心要点
- 现有GRPO方法在多候选LLM训练中,对所有候选分配相同奖励,导致训练信号噪声大,影响探索。
- ShapE-GRPO利用Shapley值,将集合奖励分解为候选特定的细粒度信号,优化奖励分配。
- 实验表明,ShapE-GRPO在多个数据集上优于标准GRPO,并加速了训练收敛。
📝 摘要(中文)
在大语言模型(LLM)与用户交互的场景中,例如推荐、头脑风暴和代码建议,LLM通常生成一组候选推荐,目标是最大化整个集合的集体效用,而不是独立地优化每个候选。然而,现有的强化学习后训练范式,如Group Relative Policy Optimization (GRPO),通常将相同的集合级别标量奖励分配给集合中的每个候选。这导致了嘈杂的训练信号,其中较差的候选搭便车于单个强大同伴产生的高奖励,从而导致次优探索。为了解决这个问题,我们提出了Shapley-Enhanced GRPO (ShapE-GRPO)。通过利用集合级别效用的置换不变性,我们从合作博弈论中推导出一种Shapley增强公式,将集合级别的奖励分解为细粒度的、特定于候选的信号。我们证明了我们的公式保留了Shapley值的基本公理,同时保持了计算效率,具有多项式时间复杂度。在经验上,ShapE-GRPO在不同的数据集上始终优于标准GRPO,并在训练期间加速收敛。
🔬 方法详解
问题定义:现有的Group Relative Policy Optimization (GRPO)方法在训练能够生成候选集合的大语言模型时,存在奖励分配不合理的问题。GRPO将集合级别的奖励平等地分配给集合中的每个候选,导致表现差的候选“搭便车”,而表现好的候选的贡献被稀释。这种噪声大的训练信号阻碍了模型的有效探索和学习,最终影响整体性能。
核心思路:ShapE-GRPO的核心思路是利用合作博弈论中的Shapley值,将集合级别的奖励分解为各个候选的贡献值。Shapley值能够公平地衡量每个参与者在合作中的贡献,并且满足一些重要的公理性质,例如效率性、对称性和可加性。通过将集合奖励分解为候选特定的Shapley值,ShapE-GRPO能够为每个候选提供更准确、更细粒度的训练信号。
技术框架:ShapE-GRPO沿用了GRPO的整体框架,主要区别在于奖励分配阶段。首先,LLM生成一组候选集合。然后,根据某种评估指标计算集合的整体效用。接下来,ShapE-GRPO使用Shapley值计算每个候选对集合效用的贡献。最后,这些候选特定的Shapley值被用作强化学习的奖励信号,用于更新LLM的策略。
关键创新:ShapE-GRPO的关键创新在于将Shapley值应用于多候选LLM训练的奖励分配。与传统的GRPO方法相比,ShapE-GRPO能够更准确地评估每个候选的贡献,从而提供更有效的训练信号。此外,论文证明了ShapE-GRPO的计算复杂度是多项式级别的,使其在实际应用中具有可行性。
关键设计:ShapE-GRPO的关键设计在于如何高效地计算Shapley值。由于直接计算Shapley值的复杂度较高,论文可能采用了一些近似计算方法或者利用集合效用的特定结构来简化计算。此外,论文可能还设计了一些损失函数来鼓励模型生成具有更高Shapley值的候选,或者采用了一些探索策略来提高模型的探索能力。具体的技术细节需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ShapE-GRPO在多个数据集上显著优于标准GRPO。具体来说,ShapE-GRPO在训练过程中收敛速度更快,并且最终能够达到更高的性能水平。这些结果验证了Shapley值在多候选LLM训练中的有效性,并表明ShapE-GRPO是一种有前景的奖励分配方法。
🎯 应用场景
ShapE-GRPO可应用于各种需要生成候选集合的LLM应用场景,例如推荐系统、头脑风暴工具、代码生成助手等。通过更有效地训练LLM,ShapE-GRPO可以提高这些应用的性能,例如生成更相关的推荐、更具创意的想法或更准确的代码。该方法有望提升人机交互的质量和效率。
📄 摘要(原文)
In user-agent interaction scenarios such as recommendation, brainstorming, and code suggestion, Large Language Models (LLMs) often generate sets of candidate recommendations where the objective is to maximize the collective utility of the entire set rather than individual candidates independently. However, existing reinforcement learning post-training paradigms, such as Group Relative Policy Optimization (GRPO), typically assign the same set-level scalar reward to every candidate in the set. This leads to noisy training signals where poor candidates free-ride on the high reward produced by a single strong peer, resulting in suboptimal exploration. To address this, we propose Shapley-Enhanced GRPO (ShapE-GRPO). By leveraging the permutation-invariant nature of set-level utility, we derive a Shapley-enhanced formulation from cooperative game theory to decompose set-level rewards into granular, candidate-specific signals. We show that our formulation preserves the fundamental axioms of the Shapley value while remaining computationally efficient with polynomial-time complexity. Empirically, ShapE-GRPO consistently outperforms standard GRPO across diverse datasets with accelerated convergence during training.