Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation

📄 arXiv: 2410.13817v1 📥 PDF

作者: Jean-Pierre Sleiman, Mayank Mittal, Marco Hutter

分类: cs.RO, cs.AI

发布日期: 2024-10-17

备注: J. P. Sleiman and M. Mittal contributed equally. Accepted for CoRL 2024 (Oral). Project website: https://leggedrobotics.github.io/guided-rl-locoma/


💡 一句话要点

提出基于引导强化学习的多接触Loco-Manipulation鲁棒控制方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 机器人操作 多接触操作 运动模仿 轨迹优化

📋 核心要点

  1. 传统强化学习在多接触操作任务中面临MDP设计复杂、任务泛化性差的挑战。
  2. 该方法提出一种基于单次演示引导的强化学习框架,利用自适应相位动力学提升轨迹跟踪的鲁棒性。
  3. 实验表明,该方法在多个任务中优于现有运动模仿强化学习方法,并成功迁移到真实机器人。

📝 摘要(中文)

强化学习(RL)通常需要针对每个任务精心设计马尔可夫决策过程(MDP)。为了解决这一挑战,本文提出了一种系统性的方法,用于多接触Loco-Manipulation任务的行为合成和控制,例如导航弹簧门和操作重型洗碗机。我们定义了一个与任务无关的MDP,仅使用从基于模型的轨迹优化器生成的每个任务的单个演示来训练RL策略。我们的方法结合了自适应相位动力学公式,以鲁棒地跟踪演示,同时适应动态不确定性和外部干扰。我们将我们的方法与先前的运动模仿RL工作进行比较,并表明学习的策略在所有考虑的任务中都实现了更高的成功率。这些策略学习了演示中不存在的恢复动作,例如在执行期间重新抓取物体或处理滑移。最后,我们成功地将策略转移到真实的机器人上,证明了我们方法的实际可行性。

🔬 方法详解

问题定义:论文旨在解决多接触Loco-Manipulation任务中,强化学习策略训练对特定任务MDP设计依赖性强,泛化能力差的问题。现有方法通常需要大量的任务特定数据和精细的奖励函数设计,难以适应复杂环境和动态扰动。

核心思路:论文的核心思路是利用单次专家演示引导强化学习策略的训练,并结合自适应相位动力学来增强策略的鲁棒性。通过学习一个与任务无关的MDP,策略能够泛化到不同的任务,并从演示中学习到有效的操作策略。自适应相位动力学能够使策略更好地跟踪演示轨迹,并适应动态不确定性和外部干扰。

技术框架:整体框架包含三个主要阶段:1) 使用基于模型的轨迹优化器生成单次专家演示;2) 定义一个与任务无关的MDP,并使用专家演示数据进行强化学习策略训练;3) 使用自适应相位动力学来跟踪演示轨迹,并进行鲁棒控制。该框架允许策略从少量数据中学习,并具备较强的泛化能力和鲁棒性。

关键创新:最重要的技术创新点在于结合了单次演示引导的强化学习和自适应相位动力学。与传统的运动模仿强化学习方法相比,该方法不需要大量的演示数据,并且能够学习到演示中不存在的恢复动作,例如重新抓取物体或处理滑移。自适应相位动力学能够使策略更好地适应动态不确定性和外部干扰,从而提高策略的鲁棒性。

关键设计:论文中关键的设计包括:1) 与任务无关的MDP设计,允许策略泛化到不同的任务;2) 自适应相位动力学公式,用于鲁棒地跟踪演示轨迹;3) 奖励函数的设计,鼓励策略模仿专家演示,并学习恢复动作。具体的网络结构和参数设置在论文中有详细描述,例如使用了特定的神经网络结构来表示策略函数,并使用特定的优化算法来训练策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个多接触Loco-Manipulation任务中取得了显著的性能提升。与先前的运动模仿强化学习方法相比,该方法在所有考虑的任务中都实现了更高的成功率。此外,该方法成功地将策略转移到真实的机器人上,验证了其在实际应用中的可行性。例如,在开门任务中,该方法能够成功地打开弹簧门,即使在受到外部干扰的情况下也能保持稳定。

🎯 应用场景

该研究成果可应用于复杂环境下的机器人操作任务,例如家庭服务机器人、工业自动化机器人等。通过学习少量演示数据,机器人可以快速适应新的操作任务,并具备较强的鲁棒性和泛化能力。该方法有望降低机器人部署和维护的成本,并提高机器人的智能化水平。

📄 摘要(原文)

Reinforcement learning (RL) often necessitates a meticulous Markov Decision Process (MDP) design tailored to each task. This work aims to address this challenge by proposing a systematic approach to behavior synthesis and control for multi-contact loco-manipulation tasks, such as navigating spring-loaded doors and manipulating heavy dishwashers. We define a task-independent MDP to train RL policies using only a single demonstration per task generated from a model-based trajectory optimizer. Our approach incorporates an adaptive phase dynamics formulation to robustly track the demonstrations while accommodating dynamic uncertainties and external disturbances. We compare our method against prior motion imitation RL works and show that the learned policies achieve higher success rates across all considered tasks. These policies learn recovery maneuvers that are not present in the demonstration, such as re-grasping objects during execution or dealing with slippages. Finally, we successfully transfer the policies to a real robot, demonstrating the practical viability of our approach.