QaRL: Rollout-Aligned Quantization-Aware RL for Fast and Stable Training under Training--Inference Mismatch

📄 arXiv: 2604.07853v1 📥 PDF

作者: Hao Gu, Hao Wang, Jiacheng Liu, Lujun Li, Qiyuan Zhu, Bei Liu, Binxing Xu, Lei Wang, Xintong Yang, Sida Lin, Sirui Han, Yike Guo

分类: cs.LG, cs.AI

发布日期: 2026-04-09


💡 一句话要点

QaRL:提出Rollout对齐的量化感知强化学习,加速LLM训练并提升稳定性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化感知训练 强化学习 大型语言模型 Rollout对齐 训练推理一致性

📋 核心要点

  1. 现有方法在LLM强化学习中,使用量化加速rollout生成,但引入了训练-推理精度不匹配的问题,导致训练不稳定。
  2. QaRL的核心思想是将训练端的前向传播与量化的rollout对齐,从而最小化训练和推理之间的差距,提升训练稳定性。
  3. 实验结果表明,QaRL在数学问题上优于现有的量化rollout训练方法,提升了5.5的性能,并保持了低比特吞吐量。

📝 摘要(中文)

大型语言模型(LLM)强化学习(RL)流程通常受限于rollout生成,导致端到端训练缓慢。为了缓解这个问题,现有工作采用量化进行rollout,以加速解码,这是RL循环中最耗时的阶段。然而,这些设置通过放大训练-推理差距来破坏优化稳定性:rollout以低精度运行,而学习更新以全精度计算。为了解决这个挑战,我们提出了QaRL(Rollout Alignment Quantization-Aware RL),它将训练端前向传播与量化的rollout对齐,以最小化不匹配。我们进一步识别了量化rollout中的一种失效模式:长文本回复倾向于产生重复的、乱码的token(错误token)。为了缓解这些问题,我们引入了TBPO(Trust-Band Policy Optimization),一种具有负样本双重裁剪的序列级目标,旨在将更新保持在信任区域内。在Qwen3-30B-A3B MoE模型上解决数学问题时,QaRL优于量化rollout训练+5.5,同时提高了稳定性和保持了低比特吞吐量优势。

🔬 方法详解

问题定义:论文旨在解决大型语言模型强化学习(LLM RL)中,使用量化加速rollout生成时,由于训练和推理精度不匹配导致的训练不稳定问题。现有方法直接使用量化的模型进行rollout,而训练更新仍然在全精度下进行,这导致了较大的训练-推理差距,使得模型难以收敛,性能下降。

核心思路:QaRL的核心思路是通过对齐训练端的前向传播和量化的rollout,来最小化训练和推理之间的精度差异。具体来说,在训练过程中,QaRL模拟量化rollout的过程,使得训练更新能够感知到量化的影响,从而更好地适应量化环境。此外,针对量化rollout中出现的重复token问题,提出了Trust-Band Policy Optimization (TBPO) 方法,通过序列级别的目标函数和双重裁剪,约束策略更新,避免生成质量差的文本。

技术框架:QaRL的整体框架包括以下几个主要步骤:1) 使用量化模型进行rollout生成训练数据;2) 在训练过程中,使用量化感知的前向传播,模拟量化rollout的过程;3) 使用TBPO目标函数进行策略优化,防止生成重复token;4) 使用优化后的策略进行下一轮rollout,迭代训练。

关键创新:QaRL的关键创新在于:1) 提出了Rollout对齐的量化感知训练方法,通过在训练过程中模拟量化rollout,减小了训练-推理差距;2) 提出了Trust-Band Policy Optimization (TBPO) 方法,通过序列级别的目标函数和双重裁剪,解决了量化rollout中出现的重复token问题。

关键设计:在量化感知前向传播中,论文可能使用了Straight-Through Estimator (STE) 或其他类似的技术,来近似量化操作的梯度。TBPO目标函数可能采用了PPO或TRPO的框架,并在此基础上添加了负样本的双重裁剪机制,以约束策略更新的幅度。具体的量化方案(如量化比特数、量化方法)以及TBPO的超参数设置(如裁剪阈值)是影响性能的关键因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QaRL在Qwen3-30B-A3B MoE模型上进行了实验,结果表明,QaRL优于现有的量化rollout训练方法+5.5,同时提高了训练的稳定性,并保持了低比特量化带来的吞吐量优势。这表明QaRL能够有效地解决量化带来的训练-推理不匹配问题,提升量化LLM的性能。

🎯 应用场景

QaRL具有广泛的应用前景,尤其是在需要快速推理和低资源消耗的场景下,例如移动设备上的LLM应用、边缘计算环境中的自然语言处理任务等。通过使用QaRL,可以在保证模型性能的同时,显著降低计算成本和延迟,从而实现更高效的LLM部署。

📄 摘要(原文)

Large language model (LLM) reinforcement learning (RL) pipelines are often bottlenecked by rollout generation, making end-to-end training slow. Recent work mitigates this by running rollouts with quantization to accelerate decoding, which is the most expensive stage of the RL loop. However, these setups destabilize optimization by amplifying the training-inference gap: rollouts are operated at low precision, while learning updates are computed at full precision. To address this challenge, we propose QaRL (Rollout Alignment Quantization-Aware RL), which aligns training-side forward with the quantized rollout to minimize mismatch. We further identify a failure mode in quantized rollouts: long-form responses tend to produce repetitive, garbled tokens (error tokens). To mitigate these problems, we introduce TBPO (Trust-Band Policy Optimization), a sequence-level objective with dual clipping for negative samples, aimed at keeping updates within the trust region. On Qwen3-30B-A3B MoE for math problems, QaRL outperforms quantized-rollout training by +5.5 while improving stability and preserving low-bit throughput benefits.