BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

📄 arXiv: 2510.18927v1 📥 PDF

作者: Zhiheng Xi, Xin Guo, Yang Nan, Enyu Zhou, Junrui Shen, Wenxiang Chen, Jiaqi Liu, Jixuan Huang, Zhihao Zhang, Honglin Guo, Xun Deng, Zhikai Lei, Miao Zheng, Guoteng Wang, Shuo Zhang, Peng Sun, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-21

备注: Preprint


💡 一句话要点

BAPO:通过自适应裁剪平衡策略优化,稳定LLM的离线强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 离线学习 策略优化 自适应裁剪 模型对齐 PPO 熵正则化

📋 核心要点

  1. 现有离线强化学习方法在对齐LLM时,存在策略熵下降过快、优化不稳定甚至崩溃的问题。
  2. BAPO通过动态调整裁剪边界,自适应地平衡正负样本贡献,从而保持策略熵并稳定强化学习优化过程。
  3. 实验表明,BAPO在多个离线场景下实现了快速、稳定和数据高效的训练,并在多个基准测试中超越了现有模型。

📝 摘要(中文)

强化学习(RL)已成为对齐和增强大型语言模型(LLM)的核心范式。然而,在离线设置中应用RL——使用来自过去策略的陈旧数据进行训练——提高了样本效率,但仍然具有挑战性:策略熵急剧下降,优化变得不稳定,甚至可能崩溃。通过理论和实证分析,我们发现了两个关键见解:(i)优化中的不平衡,其中负优势样本主导策略梯度,抑制了有用的行为,并有梯度爆炸的风险;(ii)导出的熵裁剪规则,表明类PPO目标中的固定裁剪机制系统地阻止了熵增加的更新,从而驱使策略以牺牲探索为代价过度利用。基于这些见解,我们提出了一种简单而有效的方法,即具有自适应裁剪的平衡策略优化(BAPO),该方法动态调整裁剪边界,以自适应地重新平衡正负贡献,保持熵,并稳定RL优化。在各种离线场景(包括样本重放和部分rollout)中,BAPO实现了快速、稳定和数据高效的训练。在AIME 2024和AIME 2025基准测试中,我们的7B BAPO模型超过了SkyWork-OR1-7B等开源模型,而我们的32B BAPO模型不仅在同等规模的模型中取得了最先进的结果,而且优于o3-mini和Gemini-2.5-Flash-Thinking等领先的专有系统。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)离线强化学习训练中策略熵快速下降和优化不稳定的问题。现有的离线强化学习方法,如基于PPO的变体,在利用历史数据进行训练时,容易出现策略过度利用,导致模型性能下降。

核心思路:论文的核心思路是通过平衡策略优化,自适应地调整裁剪范围,从而解决正负优势样本贡献不平衡的问题。通过动态调整裁剪边界,BAPO能够更好地保持策略的熵,鼓励探索,避免过早收敛到次优解。

技术框架:BAPO方法基于PPO框架,主要包含以下几个阶段:1) 使用历史数据进行策略更新;2) 计算优势函数,评估动作的优劣;3) 根据优势函数的值,动态调整裁剪范围;4) 使用调整后的裁剪范围更新策略。整体流程与PPO类似,但关键在于自适应裁剪机制。

关键创新:BAPO最重要的创新点在于提出了自适应裁剪机制,能够根据正负优势样本的比例动态调整裁剪范围。这与传统的PPO中固定的裁剪范围不同,能够更好地平衡策略的探索和利用,避免策略熵的快速下降。

关键设计:BAPO的关键设计包括:1) 动态裁剪范围的计算方法,该方法基于正负优势样本的比例;2) 损失函数的设计,该损失函数考虑了自适应裁剪范围的影响;3) 实验中使用的具体参数设置,例如学习率、裁剪系数等。这些参数的选择对BAPO的性能至关重要。

📊 实验亮点

实验结果表明,BAPO在AIME 2024和AIME 2025基准测试中取得了显著的性能提升。7B BAPO模型超越了SkyWork-OR1-7B等开源模型,而32B BAPO模型不仅在同等规模的模型中取得了最先进的结果,而且优于o3-mini和Gemini-2.5-Flash-Thinking等领先的专有系统。这些结果表明BAPO在离线强化学习LLM对齐方面的有效性。

🎯 应用场景

BAPO方法可应用于各种需要利用离线数据进行强化学习的场景,尤其是在大型语言模型的对齐和优化方面。该方法能够提高训练的稳定性和效率,降低对在线交互数据的需求,从而加速LLM的开发和部署。此外,该方法还可以应用于机器人控制、推荐系统等领域。

📄 摘要(原文)

Reinforcement learning (RL) has recently become the core paradigm for aligning and strengthening large language models (LLMs). Yet, applying RL in off-policy settings--where stale data from past policies are used for training--improves sample efficiency, but remains challenging: policy entropy declines sharply, optimization often becomes unstable and may even collapse. Through theoretical and empirical analysis, we identify two key insights: (i) an imbalance in optimization, where negative-advantage samples dominate the policy gradient, suppressing useful behaviors and risking gradient explosions; and (ii) the derived Entropy-Clip Rule, which reveals that the fixed clipping mechanism in PPO-like objectives systematically blocks entropy-increasing updates, thereby driving the policy toward over-exploitation at the expense of exploration. Building on these insights, we propose BAlanced Policy Optimization with Adaptive Clipping (BAPO), a simple yet effective method that dynamically adjusts clipping bounds to adaptively re-balance positive and negative contributions, preserve entropy, and stabilize RL optimization. Across diverse off-policy scenarios--including sample replay and partial rollout--BAPO achieves fast, stable, and data-efficient training. On AIME 2024 and AIME 2025 benchmarks, our 7B BAPO model surpasses open-source counterparts such as SkyWork-OR1-7B, while our 32B BAPO model not only achieves state-of-the-art results among models of the same scale but also outperforms leading proprietary systems like o3-mini and Gemini-2.5-Flash-Thinking.