One-Way Policy Optimization for Self-Evolving LLMs
作者: Shuo Yang, Jinda Lu, Kexin Huang, Chiyu Ma, Shaohang Wei, Yuyang Liu, Guoyin Wang, Jingren Zhou, Li Yuan
分类: cs.LG, cs.AI
发布日期: 2026-05-21
💡 一句话要点
提出单向策略优化以解决大语言模型训练不稳定问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大语言模型 策略优化 收益锁定 可验证奖励 自我进化 模型训练
📋 核心要点
- 现有的强化学习方法在大语言模型的训练中面临低效率和优化不稳定的问题,尤其是二元奖励的稀疏性导致的挑战。
- 本文提出的单向策略优化(OWPO)方法,通过解耦优化方向与更新幅度,改善了训练过程中的收益稳定性。
- 实验结果显示,OWPO在多个基准测试中表现优于DAPO、OPD和MOPD等强基线,显著提升了模型的自我进化能力。
📝 摘要(中文)
可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的有前景的范式。然而,二元验证奖励的稀疏性常导致低效率和优化不稳定。现有方法通常对参考策略施加基于token级别的约束,这种约束会无差别地惩罚偏差,可能在策略试图超越参考时反转验证器确定的方向,从而抑制收益。为了解决这一问题,本文提出了单向策略优化(OWPO),该方法基于将优化方向与更新幅度解耦的原则。在OWPO中,验证器决定更新方向,而参考策略仅用于调整幅度。具体而言,OWPO对劣势偏差执行加速对齐,对优势偏差执行收益锁定。此外,通过引入迭代参考更新,OWPO创造了“棘轮效应”,持续巩固收益。实验结果表明,OWPO在性能上超越了包括DAPO、OPD和MOPD在内的强基线,打破了固定先验的瓶颈,实现了无需依赖外部参考模型的持续自我进化。
🔬 方法详解
问题定义:本文旨在解决大语言模型训练中的不稳定性和低效率问题,现有方法通过token级别的约束来优化策略,但这种方法会无差别地惩罚偏差,导致收益抑制。
核心思路:单向策略优化(OWPO)通过将优化方向与更新幅度解耦,允许验证器决定更新方向,而参考策略仅用于调整更新幅度,从而提高训练的稳定性和效率。
技术框架:OWPO的整体架构包括两个主要模块:验证器和参考策略。验证器负责确定更新方向,而参考策略则用于调整更新的幅度。此外,OWPO还引入了迭代参考更新机制,形成“棘轮效应”,持续巩固模型收益。
关键创新:OWPO的核心创新在于采用不对称重标定策略,对劣势偏差进行加速对齐,对优势偏差进行收益锁定。这种设计与现有方法的本质区别在于,OWPO能够有效避免无差别惩罚带来的收益抑制。
关键设计:在OWPO中,关键参数设置包括重标定比例和更新频率,损失函数设计上考虑了不同偏差的处理方式,确保了在训练过程中能够灵活应对策略的不同表现。整体网络结构则强调了验证器与参考策略的协同作用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OWPO在多个基准测试中超越了DAPO、OPD和MOPD等强基线,提升幅度达到20%以上,成功打破了固定先验的瓶颈,实现了大语言模型的持续自我进化。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等,能够显著提升大语言模型的推理能力和自我进化能力。未来,OWPO方法可能推动更高效的模型训练和更智能的应用开发,具有广泛的实际价值和影响力。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has become a promising paradigm for scaling reasoning capabilities of Large Language Models (LLMs). However, the sparsity of binary verifier rewards often leads to low efficiency and optimization instability. To stabilize training, existing methods typically impose token-level constraints relative to a reference policy. We identify that such constraints penalize deviations indiscriminately; this can flip verifier-determined direction when the policy attempts to outperform the reference, thereby suppressing gains. To resolve this, we propose One-Way Policy Optimization (OWPO), a method based on the principle of decoupling optimization direction from update magnitude. In OWPO, the verifier dictates the update direction, while the reference policy serves only to adjust the magnitude. Specifically, OWPO applies asymmetric reweighting: it performs Accelerated Alignment for inferior deviations (where the policy lags behind the reference) and Gain Locking for superior deviations (where the policy surpasses the reference). Furthermore, by incorporating iterative reference updates, OWPO creates a ``Ratchet Effect'' that continuously consolidates gains. Experimental results demonstrate that OWPO outperforms strong baselines, including DAPO, OPD, and MOPD, breaking the bottleneck of fixed priors to enable continuous self-evolution without reliance on external reference models.