Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation

📄 arXiv: 2405.17784v2 📥 PDF

作者: Ignat Georgiev, Krishnan Srinivasan, Jie Xu, Eric Heiden, Animesh Garg

分类: cs.LG, cs.AI

发布日期: 2024-05-28 (更新: 2024-06-03)

备注: Website https://adaptive-horizon-actor-critic.github.io/


💡 一句话要点

提出自适应步长Actor-Critic算法,解决接触动力学模拟中策略学习的梯度误差问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 强化学习 可微模拟 接触动力学 Actor-Critic 自适应步长

📋 核心要点

  1. 无模型强化学习在高维控制中梯度方差大,基于模型的强化学习在接触动力学中易受采样误差影响。
  2. AHAC算法通过自适应调整模型预测的步长,避开刚性动力学,从而降低梯度误差。
  3. 实验表明,AHAC在运动任务中比无模型强化学习基线提升40%以上奖励,并具有更好的扩展性和效率。

📝 摘要(中文)

本文研究了基于策略梯度定理的无模型强化学习(MFRL)在高维连续控制任务中的应用,发现其零阶梯度估计导致高梯度方差,产生次优策略。另一方面,一阶基于模型的强化学习(FO-MBRL)方法利用可微模拟提供低方差梯度,但在涉及刚性动力学(如物理接触)的场景中容易出现采样误差。本文深入研究了这种误差的来源,并提出了一种自适应步长Actor-Critic算法(AHAC),该算法通过调整基于模型的步长来避免刚性动力学,从而减少梯度误差。实验结果表明,AHAC优于MFRL基线,在一系列运动任务中获得了40%以上的奖励,并能有效地扩展到具有更高时钟时间效率的高维控制环境。

🔬 方法详解

问题定义:论文旨在解决在接触动力学模拟中,强化学习策略训练时遇到的梯度误差问题。现有的无模型强化学习方法(MFRL)依赖于零阶梯度估计,导致高方差,训练不稳定。而一阶基于模型的强化学习方法(FO-MBRL)虽然梯度方差较低,但在处理包含刚性动力学(例如,物体间的物理接触)的复杂场景时,由于模拟误差累积,梯度精度会显著下降,影响策略学习效果。

核心思路:论文的核心思路是自适应地调整基于模型的预测步长(horizon),以避免或减少刚性动力学带来的梯度误差。通过动态地缩短或延长预测步长,算法能够更稳定地利用可微模拟提供的梯度信息,从而提升策略学习的效率和性能。

技术框架:AHAC算法采用Actor-Critic框架,其中Actor负责策略的更新,Critic负责评估策略的价值。与传统的Actor-Critic算法不同的是,AHAC使用可微模拟器来计算梯度,并引入了一个自适应步长机制。该机制根据当前状态和动作,动态调整模型预测的步长,以最小化梯度误差。整体流程包括:(1) 从环境中采样数据;(2) 使用可微模拟器计算梯度;(3) 根据梯度误差调整预测步长;(4) 使用调整后的梯度更新Actor和Critic。

关键创新:AHAC算法的关键创新在于其自适应步长机制。该机制能够根据环境的动态特性,动态调整模型预测的步长,从而在保证梯度精度的同时,尽可能地利用模型信息。这种自适应性使得AHAC算法能够更好地处理包含刚性动力学的复杂场景,并取得更好的性能。

关键设计:AHAC算法的关键设计包括:(1) 使用可微模拟器进行梯度计算;(2) 设计一个梯度误差估计器,用于评估当前步长的梯度精度;(3) 设计一个步长调整策略,根据梯度误差动态调整步长。具体的损失函数可能包含策略梯度损失、价值函数损失以及步长调整的正则化项。网络结构方面,Actor和Critic通常采用多层感知机或循环神经网络。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,AHAC算法在多个运动任务中优于传统的无模型强化学习基线,获得了40%以上的奖励提升。此外,AHAC算法还展现出良好的扩展性,能够有效地应用于高维控制环境,并具有更高的时钟时间效率。这些结果验证了AHAC算法在处理接触动力学问题上的有效性和优越性。

🎯 应用场景

该研究成果可应用于机器人控制、游戏AI、自动驾驶等领域,尤其是在需要与环境进行复杂物理交互的场景中,例如机器人操作、四足机器人运动控制等。通过提高策略学习的效率和稳定性,可以降低开发成本,并提升系统的性能和鲁棒性。未来,该方法有望应用于更复杂的机器人系统和更具挑战性的环境。

📄 摘要(原文)

Model-Free Reinforcement Learning (MFRL), leveraging the policy gradient theorem, has demonstrated considerable success in continuous control tasks. However, these approaches are plagued by high gradient variance due to zeroth-order gradient estimation, resulting in suboptimal policies. Conversely, First-Order Model-Based Reinforcement Learning (FO-MBRL) methods employing differentiable simulation provide gradients with reduced variance but are susceptible to sampling error in scenarios involving stiff dynamics, such as physical contact. This paper investigates the source of this error and introduces Adaptive Horizon Actor-Critic (AHAC), an FO-MBRL algorithm that reduces gradient error by adapting the model-based horizon to avoid stiff dynamics. Empirical findings reveal that AHAC outperforms MFRL baselines, attaining 40% more reward across a set of locomotion tasks and efficiently scaling to high-dimensional control environments with improved wall-clock-time efficiency.