ESPO: Early-Stopping Proximal Policy Optimization
作者: Zihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye
分类: cs.LG, cs.AI
发布日期: 2026-05-28
💡 一句话要点
ESPO:提前停止近端策略优化,加速LLM强化学习并提升数学推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 数学推理 近端策略优化 提前停止
📋 核心要点
- 传统强化学习算法在LLM推理错误时仍强制生成至最大长度,浪费计算资源并引入噪声。
- ESPO通过计算替代遗憾值动态检测轨迹失败,提前终止rollout,避免无效计算。
- 实验表明,ESPO在数学推理任务上超越PPO,并在节省计算资源的同时提升了性能。
📝 摘要(中文)
当大型语言模型在强化学习中过早地犯下错误的推理步骤时,标准算法会强制其持续生成到最大长度,这不仅浪费计算资源,还会用失败后的噪声污染优势估计。本文提出了ESPO(Early-Stopping Proximal Policy Optimization),它能动态地检测轨迹失败并提前终止rollout。在每个生成步骤中,ESPO仅使用采样期间已计算的logits来计算替代遗憾值,并在平滑后的累积遗憾值显著超过其估计值时终止。截断的轨迹被视为具有终止奖励的吸收失败状态,将负的时间差分(TD)误差集中在检测到的失败步骤附近,而无需额外的奖励模型或人工标注。在为数学推理训练的DeepSeek-R1-Distill-Qwen-7B上,ESPO在AIME~2024(46.28% vs. 45.25%)、AMC~2023(85.83% vs. 82.94%)和MATH-500(87.42% vs. 85.43%)上超越了PPO,同时累计节省了超过20%的rollout tokens。
🔬 方法详解
问题定义:现有强化学习方法在训练大型语言模型进行复杂推理任务时,如果模型在推理早期出现错误,仍然会继续生成完整的轨迹。这导致计算资源的浪费,因为后续的token生成不会带来正向奖励。更重要的是,这些错误的轨迹会污染优势函数的估计,影响策略学习的效率和效果。
核心思路:ESPO的核心思想是在rollout过程中动态地检测轨迹是否已经失败,并提前终止rollout。通过这种方式,可以避免无效的计算,并减少错误轨迹对策略学习的负面影响。ESPO的关键在于如何有效地判断轨迹是否已经失败,以及如何在提前终止rollout后正确地更新策略。
技术框架:ESPO的整体框架与标准的PPO算法类似,主要区别在于rollout阶段。在每个生成步骤,ESPO会计算一个替代遗憾值,该值基于当前已生成的logits来估计未来可能获得的奖励。然后,ESPO会将平滑后的累积遗憾值与一个阈值进行比较,如果超过阈值,则认为轨迹已经失败,并提前终止rollout。截断的轨迹被视为吸收状态,并赋予一个负的终止奖励。在策略更新阶段,ESPO使用标准的PPO算法,但会考虑提前终止的轨迹,并将负的终止奖励纳入TD误差的计算中。
关键创新:ESPO的关键创新在于提出了一种基于替代遗憾值的动态轨迹失败检测方法。与传统的基于奖励模型的失败检测方法相比,ESPO不需要额外的奖励模型或人工标注,可以直接利用模型自身的logits进行判断。此外,ESPO通过将截断的轨迹视为吸收状态,并赋予负的终止奖励,能够有效地将负的TD误差集中在检测到的失败步骤附近,从而更好地指导策略学习。
关键设计:ESPO的关键设计包括替代遗憾值的计算方法和平滑参数的选择。替代遗憾值可以使用不同的方法进行估计,例如基于蒙特卡洛采样或基于价值函数的估计。平滑参数用于平滑累积遗憾值,以减少噪声的影响。此外,阈值的选择也会影响ESPO的性能,需要根据具体的任务进行调整。论文中没有明确给出这些参数的具体设置,可能需要根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
ESPO在DeepSeek-R1-Distill-Qwen-7B上进行了实验,结果表明,ESPO在AIME~2024、AMC~2023和MATH-500等数学推理任务上超越了PPO,分别提升了1.03%、2.89%和1.99%。同时,ESPO还累计节省了超过20%的rollout tokens,表明其能够有效地减少无效计算。
🎯 应用场景
ESPO具有广泛的应用前景,可以应用于各种需要使用强化学习训练大型语言模型的任务,例如数学推理、代码生成、对话系统等。通过提前停止无效的rollout,ESPO可以显著节省计算资源,并提高策略学习的效率和效果。此外,ESPO还可以应用于其他类型的序列生成任务,例如机器翻译和文本摘要。
📄 摘要(原文)
When a large language model under reinforcement learning commits a wrong reasoning step early in a trajectory, standard algorithms force it to keep generating until the maximum horizon, spending compute on tokens that never receive positive reward and polluting advantage estimates with post-failure noise. We propose ESPO (Early-Stopping Proximal Policy Optimization), which detects trajectory failure on-the-fly and terminates rollouts early. At each generation step, ESPO computes a surrogate regret using only the logits already computed during sampling, and terminates when the smoothed cumulative regret significantly exceeds its estimated values. Truncated trajectories are treated as absorbing failure states with a terminal reward, concentrating negative temporal-difference (TD) errors near the detected failure step without any additional reward model or human annotation. On DeepSeek-R1-Distill-Qwen-7B trained for mathematical reasoning, ESPO surpasses PPO on AIME~2024 (46.28% vs. 45.25%), AMC~2023 (85.83% vs. 82.94%), and MATH-500 (87.42% vs. 85.43%), while saving more than 20% rollout tokens cumulatively.