Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

作者: Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun

分类: cs.AI

发布日期: 2026-02-24

💡 一句话要点

提出BAPO：一种基于Off-Policy RLVR的大语言模型推理能力提升方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 Off-policy学习 推理能力 数据效率

📋 核心要点

传统On-policy RLVR方法存在经验浪费和奖励同质化问题，限制了大模型在困难样本上的学习。
BAPO通过Off-policy方式，动态选择训练批次，重评估困难样本并复用高质量样本，提升数据效率。
实验表明，BAPO在数学、规划和视觉推理任务上优于GRPO，并能解决基础模型无法解决的问题。

📝 摘要（中文）

本文提出了一种名为Batch Adaptation Policy Optimization (BAPO) 的 off-policy RLVR 框架，旨在提高大型语言模型后训练中的数据效率。传统的 on-policy RLVR 框架存在经验浪费和奖励同质化的问题，直接阻碍了模型在困难样本上的学习效率。BAPO 通过动态选择训练批次来解决这个问题，它会重新评估历史上的困难样本并重用高质量的样本，同时保证策略改进的下界。大量实验表明，BAPO 在数学、规划和视觉推理任务上的表现平均比 GRPO 提升了 12.5%。更重要的是，BAPO 成功解决了基础模型一直无法解决的 40.7% 的问题。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）后训练过程中，使用On-policy强化学习方法时遇到的数据效率低下的问题。具体来说，On-policy方法每次迭代只能利用当前策略产生的数据，导致经验浪费；同时，奖励信号的同质化使得模型难以区分不同质量的样本，从而影响在困难样本上的学习效果。

核心思路：BAPO的核心思路是采用Off-policy强化学习，允许策略从历史数据中学习，从而提高数据利用率。通过维护一个经验池，并动态地选择训练批次，BAPO能够重新评估历史上的困难样本，并重用高质量的样本，从而更有效地提升模型在困难任务上的推理能力。此外，BAPO还保证策略改进的下界，确保训练过程的稳定性。

技术框架：BAPO的整体框架包含以下几个主要模块：1) 经验池：用于存储历史交互数据，包括状态、动作、奖励等；2) 批次选择器：根据一定的策略，从经验池中选择训练批次，重点关注困难样本和高质量样本；3) 策略优化器：使用Off-policy强化学习算法（例如，PPO、DDPG等）更新策略；4) 策略评估器：评估当前策略的性能，并用于指导批次选择。整个流程是循环迭代的，通过不断地从经验池中选择批次、优化策略和评估策略，最终提升LLM的推理能力。

关键创新：BAPO最关键的创新点在于其动态批次选择策略。与传统的随机选择或基于奖励的选择方法不同，BAPO能够根据样本的难度和质量，自适应地调整训练批次的构成。这种动态选择策略使得模型能够更有效地利用有限的数据，从而在困难任务上取得更好的性能。此外，BAPO采用Off-policy学习方式，打破了On-policy方法的限制，能够充分利用历史数据。

关键设计：BAPO的关键设计包括：1) 批次选择策略：具体如何定义样本的难度和质量，以及如何根据这些指标选择训练批次；2) 策略优化算法：选择合适的Off-policy强化学习算法，并调整其参数以适应LLM的后训练任务；3) 奖励函数设计：设计合适的奖励函数，以引导模型学习正确的推理策略；4) 策略改进下界保证：采用一定的技术手段，确保策略在每次迭代中都能得到改进。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BAPO在数学、规划和视觉推理任务上的表现平均比 GRPO 提升了 12.5%。更重要的是，BAPO 成功解决了基础模型一直无法解决的 40.7% 的问题。这些数据充分证明了 BAPO 在提升 LLM 推理能力方面的有效性。

🎯 应用场景

BAPO方法可广泛应用于需要复杂推理能力的大型语言模型后训练，例如数学问题求解、规划任务、视觉推理等。该方法能够提升模型在这些任务上的准确性和鲁棒性，具有重要的实际应用价值。未来，BAPO还可以扩展到其他类型的任务和模型，进一步提升LLM的通用能力。

📄 摘要（原文）

Traditional on-policy Reinforcement Learning with Verifiable Rewards (RLVR) frameworks suffer from experience waste and reward homogeneity, which directly hinders learning efficiency on difficult samples during large language models post-training. In this paper, we introduce Batch Adaptation Policy Optimization (BAPO), an off-policy RLVR framework to improve the data efficiency in large language models post-training. It dynamically selects training batches by re-evaluating historically difficult samples and reusing high-quality ones, while holding a lower bound guarantee for policy improvement. Extensive experiments further demonstrate that BAPO achieves an average 12.5% improvement over GRPO across mathematics, planning, and visual reasoning tasks. Crucially, BAPO successfully resolves 40.7% of problems that base models consistently fail to solve.

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理