Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR

作者: Chaoli Mou, Zhan Zhuang, Xinning Chen, Yu Zhang

分类: cs.LG, cs.AI

发布日期: 2026-05-07

💡 一句话要点

提出选择性资格迹（S-trace）方法，通过细粒度信用分配优化RLVR中的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 推理能力 信用分配 资格迹 策略优化 思维链

📋 核心要点

现有RLVR方法（如GRPO）采用均匀信用分配，无法识别推理过程中的关键步骤，导致学习效率低下。
提出S-trace方法，通过引入稀疏资格迹机制，利用低熵标记掩码实现细粒度的信用分配与方差抑制。
实验证明S-trace在Qwen3系列模型上显著提升了推理性能，且在样本和标记效率上均优于基线方法。

📝 摘要（中文）

带有可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的关键方法。然而，诸如GRPO等主流的无评论家（critic-free）算法依赖于“均匀信用分配”假设，即无差别地广播轨迹级优势，这导致模型无法区分关键推理步骤，从而限制了学习效率。为解决此问题，本文提出了选择性资格迹（S-trace）。基于部分信任域保留的直觉，我们首先引入了样本高效的无评论家资格迹方法P-trace，并在此基础上构建了S-trace，通过选择性掩码低熵标记实现稀疏资格迹机制，以降低方差并实现细粒度信用分配。理论上，本文将GSPO方法置于无评论家资格迹框架下，指出其为均匀信用分配下的特例。实验表明，S-trace在Qwen3系列模型上显著优于GRPO，在保持更高样本与标记效率的同时，平均pass@16指标提升了0.49%至3.16%。

🔬 方法详解

问题定义：RLVR中广泛使用的无评论家算法（如GRPO）假设轨迹内所有Token对最终奖励的贡献相同，这种“均匀信用分配”忽略了推理链中不同步骤的重要性差异，导致无效的梯度更新和训练效率瓶颈。

核心思路：引入资格迹（Eligibility Traces）机制，将轨迹级的奖励信号按时间步进行加权分配。通过“部分信任域保留”策略，使模型能够聚焦于对结果影响更大的关键推理步骤，而非平摊奖励。

技术框架：该框架首先构建P-trace作为基础，通过资格迹机制实现无评论家的优势估计；随后引入S-trace，通过计算Token的熵值，对低熵（即确定性高、关键性强）的Token赋予更高的权重，对高熵Token进行掩码处理，从而实现稀疏化分配。

关键创新：将资格迹理论引入无评论家RLVR框架，并从理论上证明了GSPO是该框架下均匀分配的特例。S-trace通过引入熵感知机制，实现了从“全局广播”到“局部聚焦”的信用分配范式转换。

关键设计：核心在于S-trace的稀疏化策略，通过动态掩码机制过滤掉对推理贡献较小的Token，有效降低了策略梯度估计的方差，并提升了模型在复杂推理任务中的收敛速度与稳定性。

🖼️ 关键图片

📊 实验亮点

实验在Qwen3-1.7B、4B及8B模型上进行验证。结果显示，S-trace在平均pass@16指标上分别实现了0.49%、3.16%和2.98%的性能提升。与GRPO相比，S-trace不仅在推理准确度上表现更优，且在达到相同性能水平时，展现出了更高的样本利用率和标记处理效率。

🎯 应用场景

该方法主要应用于大语言模型的推理能力增强，特别是在数学、代码生成及逻辑推理等需要多步思维链（CoT）的任务中。通过提升信用分配的精确度，S-trace可显著降低模型训练所需的计算资源，并提升模型在复杂逻辑任务上的准确率，具有极高的工业落地价值。

📄 摘要（原文）

Reinforcement Learning with Verifiable Rewards (RLVR) has become a key approach for improving the reasoning abilities of large language models. However, widely used critic-free algorithms such as Group Relative Policy Optimization (GRPO) necessitate a ``uniform credit assignment'' assumption that indiscriminately broadcast trajectory-level advantages, hindering learning efficiency by failing to distinguish critical reasoning steps. To address this limitation, we propose Selective Eligibility Traces (S-trace). Grounded in the intuition of partial trust region preservation, we initially introduce P-trace as a sample-efficient, critic-free eligibility traces method, upon which we build S-trace, implementing a sparse eligibility traces mechanism to further mitigate variance and achieve fine-grained credit assignment by selectively masking low-entropy tokens. Theoretically, we contextualize the recent Group Sequence Policy Optimization (GSPO) method within the critic-free eligibility traces framework, identifying it as a special instance of the eligibility traces method operating under uniform credit assignment. Experiments demonstrate that S-trace not only outperforms GRPO, showing gains of 0.49\% on Qwen3-1.7B and 3.16\% on Qwen3-4B, and maintaining a robust 2.98\% improvement when scaled further to Qwen3-8B in average pass@16, but notably achieves this with simultaneously higher sample and token efficiency.

Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理