Gradient Extrapolation-Based Policy Optimization

📄 arXiv: 2605.06755v1 📥 PDF

作者: Ismam Nur Swapnil, Aranya Saha, Tanvir Ahmed Khan, Mohammad Ariful Haque, Ser-Nam Lim

分类: cs.LG, cs.AI

发布日期: 2026-05-07

备注: 26 pages, 9 figures


💡 一句话要点

提出梯度外推策略优化(GXPO),通过高效梯度预测提升大模型推理强化学习性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 策略优化 梯度外推 推理能力 计算效率 GRPO

📋 核心要点

  1. 现有GRPO方法仅依赖单步梯度更新,缺乏对长程优化路径的探索,而传统多步前瞻计算开销过大,难以在大模型训练中落地。
  2. GXPO通过梯度外推技术,仅需三次反向传播即可近似多步前瞻效果,无需额外采样,实现了计算效率与优化质量的平衡。
  3. 在数学推理任务中,GXPO相比GRPO和SFPO显著提升了pass@1准确率,并实现了最高4倍的步数加速和2.33倍的训练时间缩短。

📝 摘要(中文)

强化学习在提升大语言模型推理能力方面应用广泛,尤其在答案可自动验证的场景中。标准GRPO方法仅利用当前步更新模型,而多步前瞻(lookahead)虽能提供更优的更新方向,但因涉及多次反向传播而计算成本过高。本文提出梯度外推策略优化(GXPO),这是一种兼容GRPO的策略更新规则。GXPO在活跃阶段仅需三次反向传播即可近似长程局部前瞻,通过复用现有的采样数据、奖励及优势函数,无需额外的采样或奖励计算。该方法通过两次快速优化步测量梯度变化,预测虚拟K步前瞻点,并结合修正更新实现策略优化。当外推信号不稳定时,GXPO会自动回退至标准GRPO。实验表明,在Qwen2.5和Llama数学推理任务中,GXPO在保持计算成本不变的前提下,显著提升了pass@1准确率,并大幅加速了收敛过程。

🔬 方法详解

问题定义:论文旨在解决大语言模型在强化学习(RL)推理训练中,单步策略更新(如GRPO)导致的优化方向短视问题,以及全量多步前瞻(Lookahead)带来的高昂计算成本挑战。

核心思路:GXPO的核心思想是通过梯度外推(Gradient Extrapolation)来模拟长程优化路径。它利用两次快速优化步来观测梯度演变趋势,从而预测模型在未来K步的参数位置,并在此基础上进行修正更新,从而以极低的计算代价获得接近多步前瞻的优化效果。

技术框架:该方法在活跃训练阶段执行三个核心步骤:首先进行两次快速梯度下降以获取梯度变化信息;其次基于这些信息预测虚拟的K步前瞻点;最后将策略向该点移动,并利用新位置的真实梯度进行修正更新。若预测信号出现不稳定,系统会自动切换回标准的单步GRPO更新。

关键创新:GXPO的本质创新在于将“昂贵的前瞻计算”转化为“轻量级的梯度预测”。它无需额外的采样或奖励计算,直接复用当前批次的rollout数据,实现了对优化轨迹的有效近似,且具备自适应回退机制以保证训练稳定性。

关键设计:该方法通过平滑梯度下降代理分析(Surrogate Analysis)提供了理论支撑,明确了外推精确性的边界。在实现上,它通过固定三次反向传播的计算预算,实现了对复杂推理任务中策略更新方向的精准校准,有效避免了长程优化中的梯度震荡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在Qwen2.5和Llama模型上验证了GXPO的有效性。相比标准GRPO,pass@1准确率提升了1.65至5.00个百分点;相比SFPO,提升了0.14至1.28个百分点。在计算效率上,GXPO实现了最高4.00倍的步数加速和2.33倍的墙上时间(wall-clock)加速,证明了其在保持低计算开销的同时能更快达到最优性能。

🎯 应用场景

GXPO适用于大规模语言模型的推理强化学习场景,特别是在数学、代码生成及逻辑推理等具有明确奖励函数的任务中。该方法能够显著降低训练成本并提升模型推理准确率,对于追求高性能推理模型、受限于计算资源的科研机构及企业具有极高的实际应用价值。

📄 摘要(原文)

Reinforcement learning is widely used to improve the reasoning ability of large language models, especially when answers can be automatically checked. Standard GRPO-style training updates the model using only the current step, while full multi-step lookahead can give a better update direction but is too expensive because it needs many backward passes. We propose Gradient Extrapolation-Based Policy Optimization (GXPO), a plug-compatible policy-update rule for GRPO-style reasoning RL. GXPO approximates a longer local lookahead using only three backward passes during an active phase. It reuses the same batch of rollouts, rewards, advantages, and GRPO loss, so it does not require new rollouts or reward computation at the lookahead points. GXPO takes two fast optimizer steps, measures how the gradients change, predicts a virtual K-step lookahead point, moves the policy partway toward that point, and then applies a corrective update using the true gradient at the new position. When the lookahead signal becomes unstable, GXPO automatically switches back to standard single-pass GRPO. We also give a plain-gradient-descent surrogate analysis that explains when the extrapolation is exact and where its local errors come from. Across Qwen2.5 and Llama math-reasoning experiments, GXPO improves the average sampled pass@1 by +1.65 to +5.00 points over GRPO and by +0.14 to +1.28 points over the strongest SFPO setting, while keeping the active-phase cost fixed at three backward passes. It also achieves up to 4.00x step speedup, 2.33x wall-clock speedup, and 1.33x backward-pass speedup in reaching GRPO's peak accuracy.