Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning
作者: Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun
分类: cs.AI
发布日期: 2026-02-24
💡 一句话要点
提出BAPO:一种基于Off-Policy RLVR的大语言模型推理能力提升方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 Off-policy学习 推理能力 数据效率
📋 核心要点
- 传统On-policy RLVR方法存在经验浪费和奖励同质化问题,限制了大模型在困难样本上的学习。
- BAPO通过Off-policy方式,动态选择训练批次,重评估困难样本并复用高质量样本,提升数据效率。
- 实验表明,BAPO在数学、规划和视觉推理任务上优于GRPO,并能解决基础模型无法解决的问题。
📝 摘要(中文)
本文提出了一种名为Batch Adaptation Policy Optimization (BAPO) 的 off-policy RLVR 框架,旨在提高大型语言模型后训练中的数据效率。传统的 on-policy RLVR 框架存在经验浪费和奖励同质化的问题,直接阻碍了模型在困难样本上的学习效率。BAPO 通过动态选择训练批次来解决这个问题,它会重新评估历史上的困难样本并重用高质量的样本,同时保证策略改进的下界。大量实验表明,BAPO 在数学、规划和视觉推理任务上的表现平均比 GRPO 提升了 12.5%。更重要的是,BAPO 成功解决了基础模型一直无法解决的 40.7% 的问题。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)后训练过程中,使用On-policy强化学习方法时遇到的数据效率低下的问题。具体来说,On-policy方法每次迭代只能利用当前策略产生的数据,导致经验浪费;同时,奖励信号的同质化使得模型难以区分不同质量的样本,从而影响在困难样本上的学习效果。
核心思路:BAPO的核心思路是采用Off-policy强化学习,允许策略从历史数据中学习,从而提高数据利用率。通过维护一个经验池,并动态地选择训练批次,BAPO能够重新评估历史上的困难样本,并重用高质量的样本,从而更有效地提升模型在困难任务上的推理能力。此外,BAPO还保证策略改进的下界,确保训练过程的稳定性。
技术框架:BAPO的整体框架包含以下几个主要模块:1) 经验池:用于存储历史交互数据,包括状态、动作、奖励等;2) 批次选择器:根据一定的策略,从经验池中选择训练批次,重点关注困难样本和高质量样本;3) 策略优化器:使用Off-policy强化学习算法(例如,PPO、DDPG等)更新策略;4) 策略评估器:评估当前策略的性能,并用于指导批次选择。整个流程是循环迭代的,通过不断地从经验池中选择批次、优化策略和评估策略,最终提升LLM的推理能力。
关键创新:BAPO最关键的创新点在于其动态批次选择策略。与传统的随机选择或基于奖励的选择方法不同,BAPO能够根据样本的难度和质量,自适应地调整训练批次的构成。这种动态选择策略使得模型能够更有效地利用有限的数据,从而在困难任务上取得更好的性能。此外,BAPO采用Off-policy学习方式,打破了On-policy方法的限制,能够充分利用历史数据。
关键设计:BAPO的关键设计包括:1) 批次选择策略:具体如何定义样本的难度和质量,以及如何根据这些指标选择训练批次;2) 策略优化算法:选择合适的Off-policy强化学习算法,并调整其参数以适应LLM的后训练任务;3) 奖励函数设计:设计合适的奖励函数,以引导模型学习正确的推理策略;4) 策略改进下界保证:采用一定的技术手段,确保策略在每次迭代中都能得到改进。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BAPO在数学、规划和视觉推理任务上的表现平均比 GRPO 提升了 12.5%。更重要的是,BAPO 成功解决了基础模型一直无法解决的 40.7% 的问题。这些数据充分证明了 BAPO 在提升 LLM 推理能力方面的有效性。
🎯 应用场景
BAPO方法可广泛应用于需要复杂推理能力的大型语言模型后训练,例如数学问题求解、规划任务、视觉推理等。该方法能够提升模型在这些任务上的准确性和鲁棒性,具有重要的实际应用价值。未来,BAPO还可以扩展到其他类型的任务和模型,进一步提升LLM的通用能力。
📄 摘要(原文)
Traditional on-policy Reinforcement Learning with Verifiable Rewards (RLVR) frameworks suffer from experience waste and reward homogeneity, which directly hinders learning efficiency on difficult samples during large language models post-training. In this paper, we introduce Batch Adaptation Policy Optimization (BAPO), an off-policy RLVR framework to improve the data efficiency in large language models post-training. It dynamically selects training batches by re-evaluating historically difficult samples and reusing high-quality ones, while holding a lower bound guarantee for policy improvement. Extensive experiments further demonstrate that BAPO achieves an average 12.5% improvement over GRPO across mathematics, planning, and visual reasoning tasks. Crucially, BAPO successfully resolves 40.7% of problems that base models consistently fail to solve.