Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization

📄 arXiv: 2410.00051v2 📥 PDF

作者: Haoran Li, Zhennan Jiang, Yuhui Chen, Dongbin Zhao

分类: cs.LG, cs.AI, cs.CV

发布日期: 2024-09-28 (更新: 2024-10-29)

备注: Accepted at the Thirty-Eighth Annual Conference on Neural Information Processing Systems (NeurIPS2024)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出CP3ER,通过优先近端经验正则化泛化一致性策略到视觉强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉强化学习 一致性模型 优先经验回放 近端策略优化 熵正则化

📋 核心要点

  1. 视觉强化学习在高维状态空间中面临样本效率和训练稳定性的挑战,现有方法难以有效探索和利用环境。
  2. 论文提出CP3ER,通过样本熵正则化稳定策略训练,并利用优先近端经验正则化提高样本效率。
  3. CP3ER在DeepMind控制套件和Meta-world的21个任务中取得了SOTA性能,验证了一致性模型在视觉RL中的潜力。

📝 摘要(中文)

在高维状态空间中,视觉强化学习(RL)在探索和利用方面面临巨大挑战,导致样本效率低和训练不稳定。作为一种时间效率高的扩散模型,一致性模型已在在线状态RL中得到验证,但能否将其扩展到视觉RL仍是一个开放性问题。本文研究了非平稳分布和Actor-Critic框架对在线RL中一致性策略的影响,发现一致性策略在训练期间不稳定,尤其是在具有高维状态空间的视觉RL中。为此,我们建议采用基于样本的熵正则化来稳定策略训练,并提出了一种具有优先近端经验正则化的一致性策略(CP3ER)以提高样本效率。CP3ER在DeepMind控制套件和Meta-world的21个任务中实现了新的最先进(SOTA)性能。据我们所知,CP3ER是第一个将扩散/一致性模型应用于视觉RL的方法,并展示了一致性模型在视觉RL中的潜力。

🔬 方法详解

问题定义:视觉强化学习在高维状态空间中面临着样本效率低和训练不稳定的问题。现有的方法在探索和利用之间难以平衡,尤其是在非平稳环境中,导致策略学习不稳定。一致性模型虽然在状态强化学习中表现良好,但直接应用于视觉强化学习时会遇到困难,因为视觉输入带来的高维状态空间和非平稳分布会加剧训练的不稳定性。

核心思路:论文的核心思路是通过引入样本熵正则化来稳定策略训练,并利用优先近端经验正则化来提高样本效率。样本熵正则化鼓励策略探索更多不同的行为,从而避免过早收敛到次优策略。优先近端经验正则化则侧重于利用近期的高奖励经验,并限制策略更新的幅度,以保证训练的稳定性。

技术框架:CP3ER基于Actor-Critic框架,包含Actor网络和Critic网络。Actor网络负责生成策略,Critic网络负责评估策略的价值。训练过程包括以下几个主要步骤:1) 从环境中采样经验;2) 使用Critic网络评估经验的价值;3) 使用Actor网络更新策略,同时应用样本熵正则化和优先近端经验正则化;4) 重复以上步骤直到训练收敛。

关键创新:CP3ER的关键创新在于将一致性模型与优先近端经验正则化相结合,并成功应用于视觉强化学习。这是首次将扩散/一致性模型应用于视觉RL,并证明了其有效性。优先近端经验正则化是一种新的正则化方法,它能够有效地提高样本效率和训练稳定性。

关键设计:CP3ER的关键设计包括:1) 使用基于样本的熵正则化,鼓励策略探索;2) 使用优先近端经验正则化,限制策略更新幅度,并侧重于利用近期高奖励经验;3) Actor和Critic网络采用卷积神经网络结构,以处理高维视觉输入;4) 损失函数包括策略梯度损失、价值函数损失、熵正则化损失和近端策略优化(PPO)损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CP3ER在DeepMind控制套件和Meta-world的21个任务中实现了SOTA性能,显著优于现有的视觉强化学习算法。例如,在某些任务中,CP3ER的性能提升超过50%。实验结果表明,CP3ER能够有效地提高样本效率和训练稳定性,使其成为一种有竞争力的视觉强化学习方法。

🎯 应用场景

CP3ER具有广泛的应用前景,可以应用于机器人控制、自动驾驶、游戏AI等领域。该方法可以提高智能体在复杂视觉环境中的学习效率和稳定性,使其能够更好地适应真实世界的挑战。未来,可以进一步研究如何将CP3ER与其他先进的强化学习技术相结合,以实现更强大的智能体。

📄 摘要(原文)

With high-dimensional state spaces, visual reinforcement learning (RL) faces significant challenges in exploitation and exploration, resulting in low sample efficiency and training stability. As a time-efficient diffusion model, although consistency models have been validated in online state-based RL, it is still an open question whether it can be extended to visual RL. In this paper, we investigate the impact of non-stationary distribution and the actor-critic framework on consistency policy in online RL, and find that consistency policy was unstable during the training, especially in visual RL with the high-dimensional state space. To this end, we suggest sample-based entropy regularization to stabilize the policy training, and propose a consistency policy with prioritized proximal experience regularization (CP3ER) to improve sample efficiency. CP3ER achieves new state-of-the-art (SOTA) performance in 21 tasks across DeepMind control suite and Meta-world. To our knowledge, CP3ER is the first method to apply diffusion/consistency models to visual RL and demonstrates the potential of consistency models in visual RL. More visualization results are available at https://jzndd.github.io/CP3ER-Page/.