Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse
作者: Yuheng Zhang, Wenlin Yao, Changlong Yu, Yao Liu, Qingyu Yin, Bing Yin, Hyokun Yun, Lihong Li
分类: cs.LG
发布日期: 2025-09-30
💡 一句话要点
提出AR3PO以解决RLVR中的采样效率问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 可验证奖励 自适应回滚 响应重用 模型训练 采样效率 自然语言处理
📋 核心要点
- 现有的GRPO算法在处理相同奖励的响应组时,容易导致优势消失,影响学习效率。
- AR3PO引入自适应回滚和响应重用技术,动态分配资源以优化困难提示的响应,同时重用先前生成的正确响应。
- 在多个基准测试中,AR3PO在7B和8B模型上均优于GRPO,并在32B模型上与DAPO表现相当,显著降低了回滚成本。
📝 摘要(中文)
大型语言模型(LLMs)在推理性能上取得了显著进展,而可验证奖励的强化学习(RLVR)已成为后训练的标准范式。现有算法如群体相对策略优化(GRPO)在处理相同奖励的响应组时面临优势消失的问题。为了解决这一问题,本文提出了自适应回滚和响应重用策略优化(AR3PO),该算法通过自适应回滚和响应重用两种新技术提高了采样效率。实验表明,AR3PO在多个基准测试中优于GRPO,并在7B和8B模型上减少了多达4.2倍的回滚成本,同时在32B模型上也表现出与DAPO相当的性能。
🔬 方法详解
问题定义:本文旨在解决现有RLVR算法在面对相同奖励的响应组时出现的优势消失问题,这导致了采样效率低下和学习效果不佳。
核心思路:AR3PO通过自适应回滚技术,动态调整对不同难度提示的响应分配,同时利用响应重用来提升训练信号的有效性,从而提高采样效率。
技术框架:AR3PO的整体架构包括两个主要模块:自适应回滚模块和响应重用模块。自适应回滚模块根据提示的难度动态分配计算资源,而响应重用模块则利用历史生成的正确响应来增强当前训练过程。
关键创新:AR3PO的核心创新在于引入了自适应回滚和响应重用两个技术,前者解决了响应分配不均的问题,后者则提高了训练信号的质量。这与现有方法的本质区别在于更高效地利用计算资源。
关键设计:在参数设置上,AR3PO对不同难度的提示采用了不同的响应数量,并在损失函数中引入了对历史响应的重用机制,以确保训练过程中的信号更为有效。
🖼️ 关键图片
📊 实验亮点
AR3PO在多个基准测试中表现出色,尤其是在7B和8B模型上,显著优于GRPO,回滚成本降低多达4.2倍。在32B模型上,AR3PO与DAPO的性能相当,但回滚成本显著更低,展示了其在大规模模型训练中的优势。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过提高RLVR的采样效率,AR3PO能够在更复杂的任务中实现更高效的学习,推动智能系统在实际应用中的表现和可靠性。
📄 摘要(原文)
Large language models (LLMs) have achieved impressive reasoning performance, with reinforcement learning with verifiable rewards (RLVR) emerging as a standard paradigm for post-training. A representative algorithm, group relative policy optimization (GRPO) (Shao et al., 2024), computes advantages by normalizing outcome rewards within response groups, but suffers from a vanishing advantage issue when all responses in a group receive identical rewards. To address this issue, we propose Adaptive Rollout and Response Reuse Policy Optimization (AR3PO), a sampling efficient RLVR algorithm that introduces two novel techniques: adaptive rollout, which dynamically allocates more responses to difficult prompts while saving computation on easier ones, and response reuse, which leverages previously generated correct responses to provide useful training signals. We compare AR3PO with strong RLVR baselines on multiple representative benchmarks using two different families of base models. Across the 7B and 8B models, AR3PO consistently outperforms GRPO and matches or surpasses DAPO (Yu et al., 2025), reducing rollout cost by up to 4.2x. On the larger 32B model, AR3PO achieves comparable performance to DAPO at similar training steps while maintaining substantially lower rollout cost.