Performance Variation in Deep Reinforcement Learning

📄 arXiv: 2606.06746v1 📥 PDF

作者: Haruto Tanaka, A. Rupam Mahmood

分类: cs.LG

发布日期: 2026-06-04


💡 一句话要点

提出百分位统计方法以解决深度强化学习性能波动问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 性能波动 百分位统计 可视化方法 算法评估 鲁棒性 LayerNorm 数据效率

📋 核心要点

  1. 现有深度强化学习方法在不同运行间的性能波动显著,缺乏有效的评估手段。
  2. 论文提出基于百分位的统计和可视化方法,以更好地理解和展示性能变异性。
  3. 实验结果表明,LayerNorm和倒数第二层归一化在PPO中减少了性能波动,而SAC的波动变化不大。

📝 摘要(中文)

深度强化学习算法常常面临低运行鲁棒性的问题,表现为在独立运行的相同配置代理之间存在显著的性能波动。尽管这一问题在研究和实践中带来了诸多挑战,但针对其评估的方法相对较少。本文指出了传统不确定性和变异性估计的局限性,提出了一种基于百分位的统计方法和可视化工具,分别为最小-最大IPR和运行百分位高亮。这些工具易于解释,并依赖于样本百分位的标准属性,提供了关于运行间性能波动的丰富信息。通过三个案例研究,展示了这些方法的有效性。

🔬 方法详解

问题定义:本文旨在解决深度强化学习算法在不同运行间性能波动大的问题。现有方法在评估性能不确定性时存在局限,容易导致结果的低估和误导。

核心思路:论文提出了一种新的基于百分位的统计方法,旨在通过更直观的可视化手段来展示性能波动,帮助研究者更好地理解和分析算法的稳定性。

技术框架:整体方法包括两个主要模块:最小-最大IPR统计和运行百分位高亮。前者用于计算性能的极值范围,后者则通过可视化展示不同运行的性能分布。

关键创新:最重要的创新在于引入了百分位统计工具,这与传统的均值和方差估计方法有本质区别,能够提供更全面的性能波动信息。

关键设计:在实验中,采用了标准的样本百分位计算方法,结合不同的归一化技术(如LayerNorm)进行对比,确保了结果的可靠性和可解释性。实验还涵盖了多种算法的性能评估,确保了方法的广泛适用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用LayerNorm和倒数第二层归一化的PPO算法性能波动显著降低,而SAC的波动变化不大。TD-MPC在四种算法中表现出最低的性能变异,并且数据效率最高。在对比DQN和Rainbow算法时,发现两者在五个Atari环境中的性能波动相似。

🎯 应用场景

该研究的潜在应用领域包括深度强化学习算法的开发与优化,尤其是在需要高鲁棒性的实际应用场景,如机器人控制、游戏智能体和自动驾驶等。通过提供更清晰的性能评估工具,研究者可以更有效地调整和改进算法,提升其在复杂环境中的表现。

📄 摘要(原文)

Deep reinforcement learning (RL) algorithms often suffer from low run-to-run robustness, manifesting as significant performance variation across independent runs of identically configured agents. Although this issue poses a spectrum of challenges across research and practice, relatively few studies develop methods to evaluate it; RL research instead often reports uncertainty in the estimated mean performance. In this paper, we outline the limitations of conventional uncertainty and variation estimates, particularly their misalignment with purpose and the risk of underreporting. We then propose an alternative percentile-based statistic and visualization method, min-max IPR and run-wise percentile highlighting, respectively. These percentile-based tools are easy to interpret and rely on standard properties of sample percentiles, providing rich information about run-to-run performance variation. We demonstrate this through three case studies. First, we show that LayerNorm and penultimate-layer normalizations narrow performance variation in PPO, whereas the variation is mostly unchanged in SAC. Second, we compare PPO, SAC, TD-MPC, and TD-MPC2, and show TD-MPC exhibits the least variation while being the most data efficient among the four. Finally, in a comparison of DQN and Rainbow on five Atari environments, we show that both algorithms exhibit similar levels of performance variation.