Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis

📄 arXiv: 2604.11056v1 📥 PDF

作者: Yuhang He, Haodong Wu, Siyi Liu, Hongyu Ge, Hange Zhou, Keyi Wu, Zhuo Zheng, Qihong Lin, Zixin Zhong, Yongqi Zhang

分类: cs.LG, cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出熵感知策略优化EAPO,解决RLVR中token级别信用分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 信用分配 熵感知 策略优化

📋 核心要点

  1. RLVR虽然提升了LLM推理能力,但其稀疏奖励导致token级别的信用分配困难。
  2. 论文提出熵感知策略优化(EAPO),通过调节token级别的学习信号来解决信用分配问题。
  3. 实验表明,EAPO在多个模型上优于现有基线方法,验证了其有效性。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)显著提升了大型语言模型(LLM)的推理能力。然而,其稀疏的基于结果的奖励带来了一个根本的信用分配问题。我们通过奖励极性和token熵的联合视角分析了这个问题。我们的诊断工具,四象限分解,通过极性和熵隔离token更新,受控消融实验表明推理改进集中在高熵象限。为了在理论上证明这一观察结果,我们将条件互信息应用于自回归RLVR设置,并证明token可以携带的信用以其熵为上限。这种观点产生了可验证的预测,即推理增益主要来自高熵token,具有正向和负向更新的独特作用。对GRPO的梯度分析进一步揭示了均匀奖励广播如何稀释高熵位置的信号,同时过度信任确定性token。基于这些见解,我们提出了熵感知策略优化(EAPO),相应地调节token级别的学习信号。大量的实验表明,EAPO在两个模型系列中优于强大的基线。

🔬 方法详解

问题定义:RLVR在训练LLM进行复杂推理任务时,面临着稀疏奖励带来的信用分配难题。具体来说,模型最终输出结果的奖励信号需要反向传播到生成序列中的每个token,但并非所有token都对最终结果有同等贡献。现有方法,如GRPO,采用均匀奖励广播,可能导致对重要token的信号稀释,以及对不重要token的过度奖励,从而影响学习效率和效果。

核心思路:论文的核心思路是基于token的熵值来调节学习信号。高熵token通常对应于模型决策的关键节点,对最终结果影响更大,应该分配更多的信用。反之,低熵token通常是确定性的,对结果影响较小,应该减少信用分配。通过这种熵感知的信用分配方式,可以更有效地训练模型,提升推理能力。

技术框架:论文提出的EAPO方法主要包含以下几个步骤:1) 使用四象限分解工具分析token更新的极性和熵值;2) 基于条件互信息理论,证明token的信用上限受其熵值限制;3) 设计熵感知策略优化算法,根据token的熵值动态调整学习信号;4) 在训练过程中,使用调整后的学习信号更新模型参数。

关键创新:论文的关键创新在于提出了熵感知的信用分配机制。与传统的均匀奖励广播方法不同,EAPO能够根据token的重要性动态调整学习信号,从而更有效地利用奖励信息,提升模型的学习效率和推理能力。此外,论文还通过理论分析和实验验证了熵与token信用之间的关系,为EAPO的有效性提供了理论支撑。

关键设计:EAPO的关键设计包括:1) 使用token的预测概率计算熵值;2) 设计一个熵值调节函数,将熵值映射到学习信号的调节系数;3) 将调节系数应用于梯度更新过程中,从而实现熵感知的信用分配。具体的调节函数可以根据实际情况进行调整,例如可以使用线性函数或指数函数。此外,论文还探讨了正向和负向更新的不同作用,并针对性地设计了不同的调节策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EAPO在两个模型系列上均优于强大的基线方法,证明了其有效性。具体来说,EAPO在推理任务上的准确率提升了显著,并且在训练过程中收敛速度更快。四象限分解分析表明,EAPO能够更有效地利用高熵token的信息,从而提升模型的推理能力。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的大型语言模型训练中,例如问答系统、对话系统、代码生成等。通过更有效的信用分配,可以提升模型的推理准确性和泛化能力,从而在各种实际应用场景中取得更好的效果。此外,该研究提出的熵感知信用分配思想也可以应用于其他强化学习任务中。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning ability of Large Language Models (LLMs). However, its sparse outcome-based rewards pose a fundamental credit assignment problem. We analyze this problem through the joint lens of reward polarity and token entropy. Our diagnostic tool, the Four Quadrant Decomposition, isolates token updates by polarity and entropy, and controlled ablations show that reasoning improvements concentrate in the high-entropy quadrants. To justify this observation theoretically, we adapt Conditional Mutual Information to the autoregressive RLVR setting and prove that the credit a token can carry is upper-bounded by its entropy. This view yields testable predictions that reasoning gains arise primarily from high-entropy tokens, with unique roles for positive and negative updates. A gradient analysis of GRPO further reveals how uniform reward broadcast dilutes signal at high-entropy positions while over-crediting deterministic tokens. Grounded in these insights, we propose Entropy-Aware Policy Optimization (EAPO) that modulates token-level learning signals accordingly. Extensive experiments demonstrate that EAPO outperforms strong baselines across two model families.