Double Actor-Critic with TD Error-Driven Regularization in Reinforcement Learning

📄 arXiv: 2409.19231v1 📥 PDF

作者: Haohui Chen, Zhiyong Chen, Aoxiang Liu, Wentuo Fang

分类: cs.LG, cs.AI

发布日期: 2024-09-28


💡 一句话要点

提出基于TD误差驱动正则化的双重Actor-Critic算法,提升强化学习值估计。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 双重Actor-Critic 时间差分学习 正则化 连续控制

📋 核心要点

  1. 现有确定性策略梯度算法缺乏双重Actor-Critic结构,导致值估计不够准确,影响强化学习性能。
  2. TDDR算法采用双重Actor结构,并引入基于时间差分误差的Critic正则化,提升值函数估计的准确性。
  3. 实验结果表明,TDDR在连续控制任务中表现出强大的竞争力,且无需引入额外的超参数,简化了设计。

📝 摘要(中文)

为了在强化学习中获得更好的值估计,本文提出了一种基于时间差分误差驱动正则化的双重Actor-Critic算法,简称TDDR。TDDR采用了双重Actor结构,每个Actor都与一个Critic配对,从而充分利用了双重Critic的优势。此外,TDDR还引入了一种创新的Critic正则化架构。与缺乏双重Actor-Critic结构的经典确定性策略梯度算法相比,TDDR提供了更优越的估计。而且,与现有的具有双重Actor-Critic框架的算法不同,TDDR没有引入任何额外的超参数,从而显著简化了设计和实现过程。实验表明,在具有挑战性的连续控制任务中,TDDR与基准算法相比表现出强大的竞争力。

🔬 方法详解

问题定义:强化学习中的值函数估计是策略优化的关键。现有基于确定性策略梯度的算法,特别是单Actor-Critic结构,容易产生偏差,导致策略学习不稳定。双重Critic结构可以缓解这个问题,但缺乏双重Actor的配合,仍然存在改进空间。此外,如何有效地正则化Critic,避免过拟合,也是一个挑战。

核心思路:TDDR的核心思路是利用双重Actor-Critic结构,并结合时间差分(TD)误差驱动的正则化方法,来提升值函数估计的准确性和稳定性。双重Actor可以提供更多样化的策略样本,配合双重Critic,减少值函数估计的偏差。TD误差驱动的正则化可以根据学习的进展自适应地调整正则化强度,避免过拟合。

技术框架:TDDR算法的整体框架包含两个Actor网络和两个Critic网络。每个Actor网络根据当前策略生成动作,Critic网络评估该动作的价值。算法使用时间差分(TD)学习更新Critic网络,并使用策略梯度方法更新Actor网络。关键在于,Critic网络的更新过程中,引入了基于TD误差的正则化项。

关键创新:TDDR的关键创新在于:1) 引入了双重Actor结构,与双重Critic结构配合,更充分地利用了双重估计的优势。2) 提出了TD误差驱动的正则化方法,可以根据学习的进展自适应地调整正则化强度,避免过拟合,而无需引入额外的超参数。

关键设计:TDDR算法的关键设计包括:1) Actor和Critic网络的具体结构,可以使用多层感知机或其他深度神经网络。2) TD误差的计算方式,通常使用当前状态的价值估计与下一个状态的奖励和价值估计之差。3) 正则化项的具体形式,可以使用L2正则化或其他正则化方法,其强度由TD误差的大小决定。4) 损失函数的设计,包括TD误差损失和策略梯度损失,以及正则化损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TDDR算法在多个具有挑战性的连续控制任务中,例如MuJoCo环境下的各种机器人运动控制任务,取得了显著的性能提升。与基准算法,如DDPG和TD3相比,TDDR在样本效率和最终性能方面均表现出更强的竞争力,且无需额外的超参数调整。

🎯 应用场景

TDDR算法可应用于各种需要精确值函数估计的强化学习任务,例如机器人控制、自动驾驶、游戏AI等。通过提升值函数估计的准确性,可以提高策略学习的效率和稳定性,从而实现更智能的决策和控制。该算法无需额外超参数,易于部署,具有广泛的应用前景。

📄 摘要(原文)

To obtain better value estimation in reinforcement learning, we propose a novel algorithm based on the double actor-critic framework with temporal difference error-driven regularization, abbreviated as TDDR. TDDR employs double actors, with each actor paired with a critic, thereby fully leveraging the advantages of double critics. Additionally, TDDR introduces an innovative critic regularization architecture. Compared to classical deterministic policy gradient-based algorithms that lack a double actor-critic structure, TDDR provides superior estimation. Moreover, unlike existing algorithms with double actor-critic frameworks, TDDR does not introduce any additional hyperparameters, significantly simplifying the design and implementation process. Experiments demonstrate that TDDR exhibits strong competitiveness compared to benchmark algorithms in challenging continuous control tasks.