ReSpec: Towards Optimizing Speculative Decoding in Reinforcement Learning Systems

📄 arXiv: 2510.26475v1 📥 PDF

作者: Qiaoling Chen, Zijun Liu, Peng Sun, Shenggui Li, Guoteng Wang, Ziming Liu, Yonggang Wen, Siyuan Feng, Tianwei Zhang

分类: cs.LG, cs.DC

发布日期: 2025-10-30


💡 一句话要点

ReSpec:优化强化学习系统中推测解码的框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推测解码 知识蒸馏 模型优化 训练加速 策略优化

📋 核心要点

  1. 现有强化学习微调LLM方法生成阶段耗时过长,推测解码(SD)集成到RL系统中存在加速效果减弱、drafter过时和策略退化等问题。
  2. ReSpec通过动态调整SD配置、知识蒸馏进化drafter以及奖励加权更新,将SD适应于RL,从而解决上述问题。
  3. 实验表明,ReSpec在Qwen模型上实现了高达4.5倍的加速,同时保持了奖励收敛和训练稳定性。

📝 摘要(中文)

通过强化学习(RL)调整大型语言模型(LLM)通常受限于生成阶段,该阶段可能消耗超过75%的训练时间。推测解码(SD)加速了服务系统中的自回归生成,但其在RL训练下的行为仍未被充分探索。我们发现了阻碍SD直接集成到RL系统中的三个关键问题:大批量下的加速效果减弱,持续的actor更新导致drafter过时,以及drafter引起的策略退化。为了解决这些问题,我们提出了ReSpec,一个通过三种互补机制将SD适应于RL的系统:动态调整SD配置,通过知识蒸馏进化drafter,以及通过rollout奖励加权更新。在Qwen模型(3B-14B)上,ReSpec实现了高达4.5倍的加速,同时保持了奖励收敛和训练稳定性,为基于RL的LLM高效适配提供了一个实用的解决方案。

🔬 方法详解

问题定义:论文旨在解决在强化学习训练大型语言模型时,生成阶段耗时过长的问题。现有方法直接将推测解码(SD)应用于RL系统存在三个痛点:一是大批量训练时SD的加速效果会显著降低;二是RL训练过程中actor不断更新,导致drafter模型过时,影响推测的准确性;三是drafter引入的偏差可能导致策略退化。

核心思路:论文的核心思路是通过动态调整SD的配置、进化drafter模型以及根据rollout奖励调整更新权重,来解决SD在RL训练中遇到的问题。通过这三个机制,ReSpec能够更好地适应RL训练过程,提高训练效率和模型性能。

技术框架:ReSpec系统包含三个主要模块:1) 动态配置调整模块,用于根据训练状态动态调整SD的参数,例如draft长度等;2) Drafter进化模块,使用知识蒸馏方法,定期用更新后的actor模型来训练drafter模型,保持drafter的有效性;3) 奖励加权更新模块,根据rollout获得的奖励,对actor模型的更新进行加权,减少drafter引入的偏差对策略的影响。

关键创新:论文的关键创新在于提出了一个完整的系统ReSpec,能够将推测解码有效地应用于强化学习训练大型语言模型的场景。ReSpec不是简单地将SD应用于RL,而是针对RL训练的特点,提出了动态调整、drafter进化和奖励加权等机制,解决了SD在RL中遇到的特有问题。

关键设计:在动态配置调整方面,论文可能采用了基于策略梯度的方法来优化draft长度等参数。在drafter进化方面,使用了知识蒸馏,损失函数可能包括模仿损失和正则化项。在奖励加权更新方面,使用了重要性采样或者类似的技巧,根据rollout奖励来调整梯度更新的权重。具体参数设置和网络结构细节在论文中应该有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReSpec在Qwen模型(3B-14B)上进行了实验,结果表明,ReSpec能够实现高达4.5倍的加速,同时保持了奖励收敛和训练稳定性。这表明ReSpec能够有效地解决SD在RL训练中遇到的问题,并显著提高训练效率。

🎯 应用场景

ReSpec可应用于各种需要通过强化学习微调大型语言模型的场景,例如对话系统、文本生成、代码生成等。该研究能够显著加速模型训练过程,降低计算成本,并提升模型性能,具有重要的实际应用价值。未来,ReSpec可以进一步扩展到其他类型的生成模型和强化学习算法中。

📄 摘要(原文)

Adapting large language models (LLMs) via reinforcement learning (RL) is often bottlenecked by the generation stage, which can consume over 75\% of the training time. Speculative decoding (SD) accelerates autoregressive generation in serving systems, but its behavior under RL training remains largely unexplored. We identify three critical gaps that hinder the naive integration of SD into RL systems: diminishing speedups at large batch sizes, drafter staleness under continual actor updates, and drafter-induced policy degradation. To address these gaps, we present ReSpec, a system that adapts SD to RL through three complementary mechanisms: dynamically tuning SD configurations, evolving the drafter via knowledge distillation, and weighting updates by rollout rewards. On Qwen models (3B--14B), ReSpec achieves up to 4.5x speedup while preserving reward convergence and training stability, providing a practical solution for efficient RL-based LLM adaptation.