Enhancing Deep Deterministic Policy Gradients on Continuous Control Tasks with Decoupled Prioritized Experience Replay

📄 arXiv: 2512.05320v1 📥 PDF

作者: Mehmet Efe Lorasdagi, Dogan Can Cicek, Furkan Burak Mutlu, Suleyman Serdar Kozat

分类: cs.LG

发布日期: 2025-12-04


💡 一句话要点

提出解耦优先级经验回放(DPER)算法,提升DDPG在连续控制任务中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 连续控制 经验回放 Actor-Critic DDPG 解耦学习 优先级经验回放

📋 核心要点

  1. 传统DDPG算法使用相同的transition批次训练Actor和Critic网络,忽略了两者学习目标和更新动态的差异。
  2. DPER的核心思想是为Actor和Critic网络解耦经验回放,分别采样定制的transition批次,提供更合适的学习信号。
  3. 实验结果表明,DPER在多个MuJoCo任务中优于传统经验回放策略,提升了训练动态和最终策略质量。

📝 摘要(中文)

本文提出了一种名为解耦优先级经验回放(DPER)的新方法,旨在改进深度确定性策略梯度(DDPG)算法在连续控制任务中的性能。DPER通过允许Actor和Critic网络独立地从经验回放缓冲区中采样不同的transition批次,从而为每个组件提供更合适的学习信号。该方法可以集成到任何在连续控制领域中运行的off-policy深度强化学习算法中。实验结果表明,DPER在OpenAI Gym的多个MuJoCo任务中优于传统的经验回放策略,如普通经验回放和优先级经验回放。研究结果表明,解耦Actor和Critic网络的经验回放可以增强训练动态和最终策略质量。DPER为一类广泛的Actor-Critic off-policy强化学习算法提供了一种可泛化的性能增强机制。

🔬 方法详解

问题定义:DDPG及其变体在训练Actor和Critic网络时,通常使用相同的经验回放批次。然而,Actor和Critic的学习目标不同(Actor旨在最大化累积奖励,Critic旨在准确评估状态-动作值函数),使用相同的经验可能导致次优的训练效果,尤其是在探索不足或奖励稀疏的情况下。现有方法未能充分考虑Actor和Critic对经验的不同需求。

核心思路:DPER的核心思路是解耦Actor和Critic的经验回放过程,允许它们从经验回放缓冲区中独立采样不同的transition批次。通过为Actor和Critic定制不同的采样策略,可以为它们提供更具针对性的学习信号,从而提高训练效率和最终性能。Actor可能需要更多探索性的经验,而Critic可能需要更多高质量的经验。

技术框架:DPER可以集成到任何off-policy的Actor-Critic强化学习算法中,例如DDPG、TD3等。整体框架与原算法基本一致,主要区别在于经验回放的采样过程。具体来说,DPER维护一个共享的经验回放缓冲区,但在每次训练迭代时,Actor和Critic分别根据自己的优先级函数从缓冲区中采样不同的transition批次。Actor和Critic的优先级函数可以相同也可以不同,取决于具体的任务和算法。

关键创新:DPER最重要的创新点在于解耦了Actor和Critic的经验回放过程。与传统的经验回放方法相比,DPER能够为Actor和Critic提供更具针对性的学习信号,从而提高训练效率和最终性能。这种解耦的思想可以应用于其他Actor-Critic算法,具有一定的通用性。与优先级经验回放(PER)相比,DPER更进一步,允许Actor和Critic拥有各自独立的优先级评估和采样机制。

关键设计:DPER的关键设计在于Actor和Critic的优先级函数。论文中可能使用了TD-error作为Critic的优先级,并设计了Actor的优先级函数,例如基于策略梯度的大小或动作的稀疏性。具体的优先级函数设计需要根据具体的任务和算法进行调整。此外,DPER还需要考虑如何平衡Actor和Critic的采样频率,以及如何避免Actor和Critic采样到的transition批次过于相似。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DPER在多个MuJoCo任务中进行了评估,并与传统的经验回放策略(如普通经验回放和优先级经验回放)进行了比较。实验结果表明,DPER在多个任务中都取得了显著的性能提升,证明了解耦经验回放的有效性。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

DPER可应用于各种需要连续控制的机器人任务,例如机器人导航、机械臂控制、自动驾驶等。通过为Actor和Critic提供更合适的学习信号,DPER可以提高机器人的学习效率和控制精度,使其能够更好地适应复杂环境和完成各种任务。该方法还可用于游戏AI的开发,提升游戏角色的智能水平。

📄 摘要(原文)

Background: Deep Deterministic Policy Gradient-based reinforcement learning algorithms utilize Actor-Critic architectures, where both networks are typically trained using identical batches of replayed transitions. However, the learning objectives and update dynamics of the Actor and Critic differ, raising concerns about whether uniform transition usage is optimal. Objectives: We aim to improve the performance of deep deterministic policy gradient algorithms by decoupling the transition batches used to train the Actor and the Critic. Our goal is to design an experience replay mechanism that provides appropriate learning signals to each component by using separate, tailored batches. Methods: We introduce Decoupled Prioritized Experience Replay (DPER), a novel approach that allows independent sampling of transition batches for the Actor and the Critic. DPER can be integrated into any off-policy deep reinforcement learning algorithm that operates in continuous control domains. We combine DPER with the state-of-the-art Twin Delayed DDPG algorithm and evaluate its performance across standard continuous control benchmarks. Results: DPER outperforms conventional experience replay strategies such as vanilla experience replay and prioritized experience replay in multiple MuJoCo tasks from the OpenAI Gym suite. Conclusions: Our findings show that decoupling experience replay for Actor and Critic networks can enhance training dynamics and final policy quality. DPER offers a generalizable mechanism that enhances performance for a wide class of actor-critic off-policy reinforcement learning algorithms.