Ratio-Variance Regularized Policy Optimization

📄 arXiv: 2605.26784v1 📥 PDF

作者: Yu Luo, Shuo Han, Yihan Hu, Lei Lv, Huaping Liu, Fuchun Sun, Jianye Hao, Dong Li

分类: cs.LG, cs.AI

发布日期: 2026-05-26


💡 一句话要点

提出R²VPO,通过策略比率方差正则化实现稳定高效的策略优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 策略优化 信任区域 比率方差 正则化 机器人控制 语言模型

📋 核心要点

  1. 传统on-policy强化学习依赖硬裁剪信任区域,会不加区分地截断有价值的更新。
  2. R²VPO通过约束策略比率方差,实现信任区域的软约束,保留关键梯度信息。
  3. 实验表明,R²VPO在LLM推理和机器人控制任务中均优于PPO,提升样本效率。

📝 摘要(中文)

标准的on-policy强化学习依赖于启发式的裁剪方法来实施信任区域,但这种机制会不加区分地截断高回报但高差异的更新,从而造成严重代价。本文证明,显式地约束策略比率方差为信任区域约束提供了一种原则性的局部近似,从而消除了对二元硬裁剪的需求。通过充当分布式的“软刹车”,这种方法保留了来自新发现的关键梯度信号,同时自然地降低了陈旧的off-policy数据的权重并使其能够被重用。本文提出了R²VPO(Ratio-Variance Regularized Policy Optimization),它通过原始-对偶优化框架来实现这种约束。在跨越7个LLM规模(涵盖快速和慢速推理范式)和10个机器人控制任务的广泛评估表明了该方法的通用性。R²VPO在数学推理基准测试中取得了显著的性能提升,尤其是在较小模型上,同时显著提高了样本效率。此外,它在连续控制领域始终优于PPO基线,尤其是在稀疏奖励和动态环境中。总之,这些发现确立了比率方差正则化作为稳定和数据高效策略优化的原则性基础。

🔬 方法详解

问题定义:现有的on-policy强化学习算法,如PPO,通常使用启发式的裁剪函数来限制策略更新的幅度,以保证训练的稳定性。然而,这种硬裁剪方式会不加区分地截断所有超出范围的更新,即使这些更新可能包含有价值的信息,从而影响学习效率和最终性能。尤其是在探索性较强的环境中,这种限制可能会阻碍智能体发现新的策略。

核心思路:本文的核心思路是通过显式地约束策略更新的比率方差,来代替硬裁剪。策略比率方差可以衡量策略更新的幅度和一致性,通过限制其方差,可以实现一种“软约束”,允许部分高回报但高差异的更新通过,同时抑制那些过于激进或不稳定的更新。这种方法旨在保留有价值的梯度信息,并提高样本利用率。

技术框架:R²VPO采用原始-对偶优化框架。在原始问题中,目标是最大化期望回报,同时受到策略比率方差的约束。在对偶问题中,引入拉格朗日乘子来处理方差约束。通过交替优化原始变量(策略参数)和对偶变量(拉格朗日乘子),可以有效地找到满足约束的最优策略。整体流程包括:采样数据、计算优势函数、构建原始和对偶优化问题、更新策略参数和拉格朗日乘子。

关键创新:R²VPO的关键创新在于使用策略比率方差作为正则化项,代替了传统的硬裁剪。这种方法提供了一种更平滑、更灵活的信任区域约束,允许智能体在探索过程中保留更多的信息。与硬裁剪相比,R²VPO能够更好地平衡探索和利用,从而提高学习效率和最终性能。

关键设计:R²VPO的关键设计包括:1) 使用KL散度来衡量策略之间的差异,并将其纳入目标函数中;2) 使用拉格朗日乘子来动态调整方差约束的强度;3) 使用Adam优化器来更新策略参数和拉格朗日乘子;4) 针对不同的任务,需要调整方差约束的上限,以达到最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

R²VPO在数学推理基准测试中取得了显著的性能提升,尤其是在较小模型上。在机器人控制任务中,R²VPO始终优于PPO基线,尤其是在稀疏奖励和动态环境中。实验结果表明,R²VPO能够显著提高样本效率,并获得更稳定的训练过程。例如,在某些任务中,R²VPO的样本效率提高了50%以上。

🎯 应用场景

R²VPO具有广泛的应用前景,可用于各种强化学习任务,包括机器人控制、游戏AI、自然语言处理等。尤其是在需要高样本效率和稳定性的场景下,R²VPO的优势更加明显。例如,在资源受限的机器人控制任务中,R²VPO可以帮助机器人更快地学习到最优策略,从而降低开发成本。此外,R²VPO还可以用于训练更强大的语言模型,提高其推理能力和泛化能力。

📄 摘要(原文)

Standard on-policy reinforcement learning relies on heuristic clipping to enforce trust regions, but this mechanism imposes a severe cost by indiscriminately truncating high-return yet high-divergence updates. We demonstrate that explicitly constraining the policy ratio variance provides a principled local approximation to trust-region constraints, eliminating the need for binary hard clipping. By acting as a distributional ``soft brake'', this approach preserves critical gradient signals from novel discoveries while naturally down-weighting and enabling the reuse of stale, off-policy data. We introduce ${\bf R}^2{\bf VPO}$ (Ratio-Variance Regularized Policy Optimization), which implements this constraint via a primal-dual optimization framework. Extensive evaluations across $7$ LLM scales, spanning both fast and slow reasoning paradigms, and $10$ robotic control tasks demonstrate the generality of the proposed approach. R$^2$VPO achieves substantial performance gains on mathematical reasoning benchmarks, with particularly pronounced improvements on smaller models, while significantly improving sample efficiency. Furthermore, it consistently outperforms PPO baselines in continuous control domains, particularly in sparse-reward and dynamic environments. Together, these findings establish ratio-variance regularization as a principled foundation for stable and data-efficient policy optimization.