Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR

📄 arXiv: 2605.05965v1 📥 PDF

作者: Chaoli Mou, Zhan Zhuang, Xinning Chen, Yu Zhang

分类: cs.LG, cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出选择性资格迹(S-trace)方法,通过细粒度信用分配优化RLVR中的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 推理能力 信用分配 资格迹 策略优化 思维链

📋 核心要点

  1. 现有RLVR方法(如GRPO)采用均匀信用分配,无法识别推理过程中的关键步骤,导致学习效率低下。
  2. 提出S-trace方法,通过引入稀疏资格迹机制,利用低熵标记掩码实现细粒度的信用分配与方差抑制。
  3. 实验证明S-trace在Qwen3系列模型上显著提升了推理性能,且在样本和标记效率上均优于基线方法。

📝 摘要(中文)

带有可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的关键方法。然而,诸如GRPO等主流的无评论家(critic-free)算法依赖于“均匀信用分配”假设,即无差别地广播轨迹级优势,这导致模型无法区分关键推理步骤,从而限制了学习效率。为解决此问题,本文提出了选择性资格迹(S-trace)。基于部分信任域保留的直觉,我们首先引入了样本高效的无评论家资格迹方法P-trace,并在此基础上构建了S-trace,通过选择性掩码低熵标记实现稀疏资格迹机制,以降低方差并实现细粒度信用分配。理论上,本文将GSPO方法置于无评论家资格迹框架下,指出其为均匀信用分配下的特例。实验表明,S-trace在Qwen3系列模型上显著优于GRPO,在保持更高样本与标记效率的同时,平均pass@16指标提升了0.49%至3.16%。

🔬 方法详解

问题定义:RLVR中广泛使用的无评论家算法(如GRPO)假设轨迹内所有Token对最终奖励的贡献相同,这种“均匀信用分配”忽略了推理链中不同步骤的重要性差异,导致无效的梯度更新和训练效率瓶颈。

核心思路:引入资格迹(Eligibility Traces)机制,将轨迹级的奖励信号按时间步进行加权分配。通过“部分信任域保留”策略,使模型能够聚焦于对结果影响更大的关键推理步骤,而非平摊奖励。

技术框架:该框架首先构建P-trace作为基础,通过资格迹机制实现无评论家的优势估计;随后引入S-trace,通过计算Token的熵值,对低熵(即确定性高、关键性强)的Token赋予更高的权重,对高熵Token进行掩码处理,从而实现稀疏化分配。

关键创新:将资格迹理论引入无评论家RLVR框架,并从理论上证明了GSPO是该框架下均匀分配的特例。S-trace通过引入熵感知机制,实现了从“全局广播”到“局部聚焦”的信用分配范式转换。

关键设计:核心在于S-trace的稀疏化策略,通过动态掩码机制过滤掉对推理贡献较小的Token,有效降低了策略梯度估计的方差,并提升了模型在复杂推理任务中的收敛速度与稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在Qwen3-1.7B、4B及8B模型上进行验证。结果显示,S-trace在平均pass@16指标上分别实现了0.49%、3.16%和2.98%的性能提升。与GRPO相比,S-trace不仅在推理准确度上表现更优,且在达到相同性能水平时,展现出了更高的样本利用率和标记处理效率。

🎯 应用场景

该方法主要应用于大语言模型的推理能力增强,特别是在数学、代码生成及逻辑推理等需要多步思维链(CoT)的任务中。通过提升信用分配的精确度,S-trace可显著降低模型训练所需的计算资源,并提升模型在复杂逻辑任务上的准确率,具有极高的工业落地价值。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has become a key approach for improving the reasoning abilities of large language models. However, widely used critic-free algorithms such as Group Relative Policy Optimization (GRPO) necessitate a ``uniform credit assignment'' assumption that indiscriminately broadcast trajectory-level advantages, hindering learning efficiency by failing to distinguish critical reasoning steps. To address this limitation, we propose Selective Eligibility Traces (S-trace). Grounded in the intuition of partial trust region preservation, we initially introduce P-trace as a sample-efficient, critic-free eligibility traces method, upon which we build S-trace, implementing a sparse eligibility traces mechanism to further mitigate variance and achieve fine-grained credit assignment by selectively masking low-entropy tokens. Theoretically, we contextualize the recent Group Sequence Policy Optimization (GSPO) method within the critic-free eligibility traces framework, identifying it as a special instance of the eligibility traces method operating under uniform credit assignment. Experiments demonstrate that S-trace not only outperforms GRPO, showing gains of 0.49\% on Qwen3-1.7B and 3.16\% on Qwen3-4B, and maintaining a robust 2.98\% improvement when scaled further to Qwen3-8B in average pass@16, but notably achieves this with simultaneously higher sample and token efficiency.