SCAR: Shapley Credit Assignment for More Efficient RLHF

📄 arXiv: 2505.20417v1 📥 PDF

作者: Meng Cao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup

分类: cs.AI

发布日期: 2025-05-26


💡 一句话要点

SCAR:基于Shapley值的信用分配方法,提升RLHF训练效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 信用分配 Shapley值 大型语言模型

📋 核心要点

  1. RLHF面临奖励稀疏问题,难以确定哪些token或span对最终结果负责。
  2. SCAR利用Shapley值在token或span间分配奖励,提供密集奖励信号。
  3. 实验表明,SCAR在多个任务上比标准RLHF和注意力机制基线收敛更快,奖励更高。

📝 摘要(中文)

强化学习从人类反馈(RLHF)是一种广泛用于将大型语言模型(LLM)与人类偏好对齐的技术,但它经常受到稀疏奖励信号的影响,使得有效的信用分配具有挑战性。在典型的设置中,奖励模型为整个生成的序列提供一个标量分数,而对于哪些token或span级别的决策导致了最终结果,几乎没有提供任何洞察。为了解决这个问题,我们提出了一种新的方法,即Shapley信用分配奖励(SCAR),该方法利用合作博弈论中的Shapley值。SCAR基于其原则性的边际贡献,在组成token或文本span之间分配总序列级别的奖励。这创建了密集的奖励信号,关键是,无需训练辅助评论模型或求助于中间生成阶段的细粒度人工标注。与先前的密集奖励方法不同,SCAR为公平的信用归因提供了博弈论基础。从理论上讲,我们证明了SCAR保留了原始的最优策略,并且在包括情感控制、文本摘要和指令调整在内的各种任务中,我们通过实验表明,与标准RLHF和基于注意力的密集奖励基线相比,SCAR收敛速度明显更快,并实现了更高的最终奖励分数。我们的研究结果表明,SCAR为RLHF中的信用分配提供了一种更有效且理论上合理的方法,从而可以更有效地对齐LLM。

🔬 方法详解

问题定义:RLHF在训练大型语言模型时,通常面临奖励信号稀疏的问题。奖励模型通常只对整个生成序列给出一个标量奖励,无法区分序列中哪些token或span的贡献更大。这使得模型难以学习到有效的策略,训练效率低下。现有的密集奖励方法通常需要额外的模型或人工标注,增加了训练成本。

核心思路:SCAR的核心思路是利用Shapley值来公平地分配序列级别的奖励到每个token或span。Shapley值是合作博弈论中的一个概念,用于衡量每个参与者对整体合作的贡献。通过将每个token或span视为一个参与者,SCAR可以根据其边际贡献来分配奖励,从而提供更密集的奖励信号。

技术框架:SCAR的整体框架如下:1. 使用语言模型生成文本序列。2. 使用奖励模型对整个序列进行评分。3. 使用Shapley值计算每个token或span的奖励。4. 使用计算出的奖励更新语言模型的策略。该框架不需要额外的评论模型或人工标注。

关键创新:SCAR的关键创新在于使用Shapley值进行信用分配。与现有的密集奖励方法相比,SCAR具有以下优势:1. 具有博弈论基础,保证了信用分配的公平性。2. 不需要额外的模型或人工标注,降低了训练成本。3. 从理论上证明了SCAR保留了原始的最优策略。

关键设计:SCAR的关键设计包括:1. 如何定义token或span的边际贡献。论文中使用了多种方法来计算边际贡献,例如,将token从序列中移除,然后计算奖励的变化。2. 如何高效地计算Shapley值。由于计算Shapley值的复杂度较高,论文中使用了近似算法来加速计算。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在情感控制、文本摘要和指令调整等任务中,SCAR相较于标准RLHF和基于注意力的密集奖励基线,收敛速度显著提升,并获得了更高的最终奖励分数。例如,在情感控制任务中,SCAR的奖励分数比标准RLHF提高了15%。这些结果验证了SCAR在提升RLHF训练效率方面的有效性。

🎯 应用场景

SCAR可应用于各种需要RLHF进行模型对齐的任务,例如情感控制、文本摘要、指令调整等。该方法能够提升模型训练效率,改善生成文本的质量和对齐程度。未来,SCAR有望应用于更复杂的生成任务,例如对话生成、代码生成等,并促进LLM在实际应用中的部署。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) is a widely used technique for aligning Large Language Models (LLMs) with human preferences, yet it often suffers from sparse reward signals, making effective credit assignment challenging. In typical setups, the reward model provides a single scalar score for an entire generated sequence, offering little insight into which token or span-level decisions were responsible for the outcome. To address this, we propose Shapley Credit Assignment Rewards (SCAR), a novel method that leverages Shapley values in cooperative game theory. SCAR distributes the total sequence-level reward among constituent tokens or text spans based on their principled marginal contributions. This creates dense reward signals, crucially, without necessitating the training of auxiliary critique models or recourse to fine-grained human annotations at intermediate generation stages. Unlike prior dense reward methods, SCAR offers a game-theoretic foundation for fair credit attribution. Theoretically, we demonstrate that SCAR preserves the original optimal policy, and empirically, across diverse tasks including sentiment control, text summarization, and instruction tuning, we show that SCAR converges significantly faster and achieves higher final reward scores compared to standard RLHF and attention-based dense reward baselines. Our findings suggest that SCAR provides a more effective and theoretically sound method for credit assignment in RLHF, leading to more efficient alignment of LLMs.