ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models

📄 arXiv: 2603.28204v1 📥 PDF

作者: Song Yu, Li Li

分类: cs.LG, cs.AI

发布日期: 2026-03-30

备注: 13 pages, 4 figures


💡 一句话要点

提出ERPO,通过token级熵正则化策略优化提升大模型推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 策略优化 大型语言模型 推理能力 熵正则化

📋 核心要点

  1. 现有GRPO方法在推理链上采用粗粒度的信用分配,忽略了token间的信息差异,导致模型探索不足。
  2. ERPO通过识别关键决策枢纽(CDP),并引入熵正则化机制,鼓励模型在这些关键点进行多样化探索。
  3. 实验表明,ERPO在数学推理任务上显著优于GRPO,提升了推理精度,并生成更简洁的推理路径。

📝 摘要(中文)

本文提出了一种用于提升大型语言模型推理能力的token级熵正则化策略优化(ERPO)方法。现有基于可验证奖励的强化学习(RLVR)方法,如GRPO,通常为所有token分配统一的序列级优势,忽略了推理链中内在的信息异质性。这种粗粒度的信用分配导致过早的熵崩溃,并鼓励模型生成冗余、低质量的推理路径。通过实证分析,我们识别出关键决策枢纽(CDP),即策略轨迹对扰动最敏感的瞬时高熵状态。ERPO通过熵感知门控、基于桶的隐式归一化和结果锚定的优势合成三个协同组件,将优化重点从粗粒度序列转移到细粒度token动态。在数学基准测试中,ERPO显著优于GRPO,提高了推理准确性,并产生了更简洁、更鲁棒的推导路径。

🔬 方法详解

问题定义:现有基于GRPO的RLVR方法在训练大型语言模型进行推理时,存在信用分配粒度过粗的问题。具体来说,GRPO对整个推理序列中的所有token赋予相同的优势值,忽略了不同token在推理过程中的重要性差异。这种粗粒度的信用分配导致模型在关键决策点探索不足,容易陷入局部最优,生成冗余且低质量的推理路径。

核心思路:ERPO的核心思路是将优化重点从序列级别转移到token级别,通过对每个token进行精细化的优势评估和策略调整,来解决GRPO的信用分配问题。ERPO的关键在于识别推理过程中的关键决策枢纽(CDP),并在这些关键点上鼓励模型进行多样化的探索。

技术框架:ERPO包含三个主要组成部分:(1) 熵感知门控(Entropy-aware Gating):自适应地放大CDP的探索,促进多样化路径的发现。(2) 基于桶的隐式归一化(Bucket-based Implicit Normalization):通过对齐token进度窗口来减轻难度偏差。(3) 结果锚定的优势合成(Result-anchored Advantage Synthesis):通过结果驱动的锚点重新加权token级别的信号。这三个组件协同工作,共同提升模型的推理能力。

关键创新:ERPO最重要的创新在于其token级别的熵正则化策略优化方法。与GRPO的序列级别优化相比,ERPO能够更精细地控制模型的探索行为,避免过早的熵崩溃,并鼓励模型在关键决策点进行多样化的探索。此外,CDP的识别和利用也是ERPO的关键创新点。

关键设计:熵感知门控使用熵值作为权重,自适应地调整探索的强度。基于桶的隐式归一化通过将token序列划分为多个桶,并对每个桶进行归一化,来减轻难度偏差。结果锚定的优势合成使用最终结果作为锚点,重新加权每个token的优势值,从而更准确地评估每个token对最终结果的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ERPO在MATH和AIME等数学基准测试中显著优于GRPO。例如,在MATH数据集上,ERPO的性能提升了XX%,并且生成的推理路径更加简洁和鲁棒。这些实验结果表明,ERPO能够有效地提升大型语言模型的推理能力。

🎯 应用场景

ERPO方法可应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理等。通过提升模型的推理准确性和效率,ERPO可以帮助解决更复杂的实际问题,并推动人工智能在这些领域的应用。

📄 摘要(原文)

Reinforcement learning from verifiable rewards (RLVR) has significantly advanced the reasoning capabilities of large language models. However, standard Group Relative Policy Optimization (GRPO) typically assigns a uniform, sequence-level advantage to all tokens, thereby overlooking the intrinsic information heterogeneity along reasoning chains. We show that this coarse-grained credit assignment leads to premature entropy collapse and encourages the model to generate redundant, low-quality reasoning paths. Through systematic empirical analysis, we identify Critical Decision Pivots (CDPs): transient high-entropy states where the policy's trajectory is most sensitive to perturbations. These pivots represent the "forks in the road" where effective multi-path exploration is most crucial yet often suppressed by uniform advantage signals. Building on these insights, we propose Entropy-Regulated Policy Optimization (ERPO), which transitions the optimization focus from coarse sequences to fine-grained token dynamics. ERPO introduces three synergistic components: (i) Entropy-aware Gating, which adaptively amplifies exploration at CDPs to facilitate diverse path discovery; (ii) Bucket-based Implicit Normalization, which mitigates difficulty bias by aligning token progress windows; and (iii) Result-anchored Advantage Synthesis, which re-weights token-level signals via outcome-driven anchors. Extensive experiments on competitive mathematical benchmarks (e.g., MATH, AIME) demonstrate that ERPO significantly outperforms GRPO. Notably, ERPO not only boosts reasoning accuracy but also yields significantly more concise and robust derivation paths, establishing a new efficiency-accuracy frontier for large reasoning models.