SPEC-RL: Accelerating On-Policy Reinforcement Learning with Speculative Rollouts

📄 arXiv: 2509.23232v3 📥 PDF

作者: Bingshuai Liu, Ante Wang, Zijun Min, Liang Yao, Haibo Zhang, Yang Liu, Xu Han, Peng Li, Anxiang Zeng, Jinsong Su

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-27 (更新: 2026-01-12)

备注: fixed typos

🔗 代码/项目: GITHUB


💡 一句话要点

提出SPEC-RL以加速基于策略的强化学习中的回滚过程

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 推测解码 轨迹重用 计算效率 大型语言模型

📋 核心要点

  1. 现有的强化学习加速方法在回滚阶段面临计算开销大、收益递减等问题,影响训练效率。
  2. SPEC-RL框架通过重用先前的轨迹段,结合推测解码与草拟验证机制,减少冗余计算。
  3. 实验表明,SPEC-RL在多个基准测试中将回滚时间减少了2-3倍,同时保持了策略的质量。

📝 摘要(中文)

大型语言模型(LLMs)越来越依赖于具有可验证奖励的强化学习(RLVR)来引导可靠的推理过程。然而,训练过程中的回滚阶段计算开销巨大,现有的加速方法如并行化、目标和数据驱动的修改以及重放缓冲区等,往往带来收益递减、引入偏差或忽视迭代间的冗余。为了解决这一问题,本文提出了SPEC-RL框架,该框架将推测解码与RL回滚过程相结合,通过重用先前轨迹段作为推测前缀,并通过草拟与验证机制进行扩展,避免冗余生成,同时确保策略一致性。实验结果表明,SPEC-RL在多个数学推理和泛化基准上将回滚时间减少了2-3倍,而不影响策略质量。

🔬 方法详解

问题定义:本文旨在解决大型语言模型训练中回滚阶段的高计算成本问题。现有方法在加速过程中往往面临收益递减和偏差引入等挑战。

核心思路:SPEC-RL通过重用来自连续训练周期的轨迹段,作为推测前缀,结合草拟与验证机制,避免冗余生成,从而提高计算效率。

技术框架:SPEC-RL的整体架构包括轨迹重用模块、推测解码模块和草拟验证模块。首先重用先前的轨迹段,然后通过草拟生成新的轨迹,最后验证生成的轨迹以确保策略一致性。

关键创新:SPEC-RL的主要创新在于将推测解码与强化学习回滚过程相结合,显著减少了冗余计算,与现有方法相比,提供了一种更高效的训练方式。

关键设计:在SPEC-RL中,关键设计包括轨迹重用的策略、草拟与验证的具体实现,以及与主流算法(如PPO、GRPO、DAPO)的无缝集成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPEC-RL在多个数学推理和泛化基准上表现出色,回滚时间减少了2-3倍,且策略质量未受影响。这一成果展示了其在加速强化学习训练过程中的有效性,提供了与主流算法的良好兼容性。

🎯 应用场景

SPEC-RL的研究成果具有广泛的应用潜力,尤其在大型语言模型的训练和推理过程中,可以显著提高效率。其方法可以推广到其他需要高效回滚的强化学习任务中,推动智能系统在复杂推理和决策场景中的应用。

📄 摘要(原文)

Large Language Models (LLMs) increasingly rely on reinforcement learning with verifiable rewards (RLVR) to elicit reliable chain-of-thought reasoning. However, the training process remains bottlenecked by the computationally expensive rollout stage. Existing acceleration methods-such as parallelization, objective- and data-driven modifications, and replay buffers-either incur diminishing returns, introduce bias, or overlook redundancy across iterations. We identify that rollouts from consecutive training epochs frequently share a large portion of overlapping segments, wasting computation. To address this, we propose SPEC-RL, a novel framework that integrates SPECulative decoding with the RL rollout process. SPEC-RL reuses prior trajectory segments as speculative prefixes and extends them via a draft-and-verify mechanism, avoiding redundant generation while ensuring policy consistency. Experiments on diverse math reasoning and generalization benchmarks, including AIME24, MATH-500, OlympiadBench, MMLU-STEM, and others, demonstrate that SPEC-RL reduces rollout time by 2-3x without compromising policy quality. As a purely rollout-stage enhancement, SPEC-RL integrates seamlessly with mainstream algorithms (e.g., PPO, GRPO, DAPO), offering a general and practical path to scale RLVR for large reasoning models. Our code is available at https://github.com/ShopeeLLM/Spec-RL