Moments Matter:Stabilizing Policy Optimization using Return Distributions

📄 arXiv: 2601.01803v1 📥 PDF

作者: Dennis Jabs, Aditya Mohan, Marius Lindauer

分类: cs.LG, cs.AI

发布日期: 2026-01-05

备注: Workshop paper at RLDM'25


💡 一句话要点

利用回报分布矩稳定策略优化,提升连续控制任务的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 策略优化 回报分布 高阶矩 稳定性 连续控制 PPO

📋 核心要点

  1. 深度强化学习策略易受环境和算法噪声影响,导致策略不稳定,尤其是在连续控制任务中。
  2. 论文提出利用回报分布的高阶矩(偏度和峰度)来调整PPO的优势函数,从而抑制策略进入不稳定区域。
  3. 实验表明,该方法在Walker2D环境中能显著提升策略稳定性,最高达75%,同时保持了原有的回报水平。

📝 摘要(中文)

深度强化学习智能体由于环境(随机转移、初始条件、奖励噪声)和算法(小批量选择、探索噪声)的综合影响,经常学习到具有相同回报但行为差异很大的策略。在连续控制任务中,即使是微小的参数变化也会产生不稳定的步态,从而使算法比较和现实世界的迁移变得复杂。先前的工作表明,这种不稳定性出现在策略更新遍历噪声邻域时,并且通过重复采样小批量、更新参数并测量最终回报获得的更新后回报分布R(θ)的范围是这种噪声的有用指标。虽然显式地约束策略以维持一个窄的R(θ)可以提高稳定性,但是直接估计R(θ)在高维环境中计算成本很高。我们提出了一种利用环境随机性来减轻更新引起的变异性的替代方案。具体来说,我们通过一个分布式的评论家来建模状态-动作回报分布,然后使用该分布的高阶矩(偏度和峰度)来偏置PPO的优势函数。通过惩罚极端的尾部行为,我们的方法阻止策略进入容易出现不稳定性的参数区域。我们假设,在更新后的评论家值与更新后的回报对齐不佳的环境中,标准PPO难以产生窄的R(θ)。在这种情况下,我们基于矩的校正缩小了R(θ),在Walker2D中将稳定性提高了高达75%,同时保留了可比的评估回报。

🔬 方法详解

问题定义:深度强化学习在连续控制任务中面临策略不稳定的问题。即使策略能获得相似的累积回报,其行为也可能因环境噪声和算法更新的随机性而差异巨大。现有方法难以有效地稳定策略,尤其是在高维状态空间下直接估计回报分布计算成本过高。

核心思路:核心思想是利用回报分布的统计特性,特别是高阶矩(偏度和峰度),来引导策略优化过程。通过惩罚回报分布中极端尾部行为,鼓励策略探索更稳定的参数区域,从而提高策略的鲁棒性。这种方法避免了直接估计完整回报分布的复杂性。

技术框架:该方法基于近端策略优化(PPO)算法,并引入了一个分布式的评论家网络来估计状态-动作回报分布。然后,利用该分布的偏度和峰度来调整PPO算法中的优势函数。整体流程包括:1)使用分布式评论家估计回报分布;2)计算回报分布的偏度和峰度;3)使用偏度和峰度调整优势函数;4)使用调整后的优势函数进行PPO策略更新。

关键创新:关键创新在于利用回报分布的高阶矩作为正则化项,来稳定策略优化过程。与直接约束策略参数或估计完整回报分布的方法不同,该方法通过惩罚回报分布的极端尾部行为,间接引导策略探索更稳定的区域。这种方法计算效率更高,且能有效提高策略的鲁棒性。

关键设计:关键设计包括:1)使用C51算法实现分布式评论家,用于估计回报分布;2)使用偏度和峰度作为正则化项,添加到PPO的优势函数中,具体形式为advantage = advantage - lambda1 * skewness - lambda2 * kurtosis,其中lambda1和lambda2是超参数,用于控制偏度和峰度的惩罚力度;3)通过实验调整lambda1和lambda2的值,以获得最佳的稳定性和回报。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Walker2D环境中能够显著提升策略的稳定性,最高可达75%,同时保持了与标准PPO算法相当的回报水平。这表明该方法能够在不牺牲性能的前提下,有效提高策略的鲁棒性。此外,实验还验证了该方法在其他连续控制任务中的有效性。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域,尤其是在需要高鲁棒性和稳定性的连续控制任务中。通过提高策略的稳定性,可以减少部署过程中的调试成本,并提升智能体在复杂环境中的适应能力。未来,该方法有望推广到其他强化学习算法中,进一步提升算法的实用性。

📄 摘要(原文)

Deep Reinforcement Learning (RL) agents often learn policies that achieve the same episodic return yet behave very differently, due to a combination of environmental (random transitions, initial conditions, reward noise) and algorithmic (minibatch selection, exploration noise) factors. In continuous control tasks, even small parameter shifts can produce unstable gaits, complicating both algorithm comparison and real-world transfer. Previous work has shown that such instability arises when policy updates traverse noisy neighborhoods and that the spread of post-update return distribution $R(θ)$, obtained by repeatedly sampling minibatches, updating $θ$, and measuring final returns, is a useful indicator of this noise. Although explicitly constraining the policy to maintain a narrow $R(θ)$ can improve stability, directly estimating $R(θ)$ is computationally expensive in high-dimensional settings. We propose an alternative that takes advantage of environmental stochasticity to mitigate update-induced variability. Specifically, we model state-action return distribution through a distributional critic and then bias the advantage function of PPO using higher-order moments (skewness and kurtosis) of this distribution. By penalizing extreme tail behaviors, our method discourages policies from entering parameter regimes prone to instability. We hypothesize that in environments where post-update critic values align poorly with post-update returns, standard PPO struggles to produce a narrow $R(θ)$. In such cases, our moment-based correction narrows $R(θ)$, improving stability by up to 75% in Walker2D, while preserving comparable evaluation returns.