Learning to Open and Traverse Doors with a Legged Manipulator

📄 arXiv: 2409.04882v1 📥 PDF

作者: Mike Zhang, Yuntao Ma, Takahiro Miki, Marco Hutter

分类: cs.RO, cs.AI, cs.LG

发布日期: 2024-09-07


💡 一句话要点

提出一种基于学习的腿式机器人开门与穿越方法,无需预知开门方向。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 腿式机器人 开门 操作 师生学习 强化学习 机器人控制 运动规划

📋 核心要点

  1. 现有机器人开门方法难以适应不同门属性,且需要精确控制门板操作和狭窄门道导航,挑战性高。
  2. 采用师生学习方法训练控制器,使腿式机器人能够鲁棒地开门和穿越,并在线估计门的关键属性。
  3. 提出的单一控制策略无需预先知道开门方向,即可处理推拉门,在ANYmal机器人上实验成功率达95%。

📝 摘要(中文)

本文提出了一种基于学习的控制器,用于腿式机器人开门和穿越。该控制器采用师生学习方法在仿真环境中训练,以学习鲁棒的任务行为,并在交互过程中估计关键的门属性。与以往工作不同,我们的方法是一个单一的控制策略,可以通过学习到的行为来处理推拉门,并在部署过程中推断开门方向,而无需先验知识。该策略部署在配备手臂的ANYmal腿式机器人上,在实验环境中进行的重复试验中,成功率达到95.0%。额外的实验验证了该策略对各种门和干扰的有效性和鲁棒性。

🔬 方法详解

问题定义:现有机器人开门方法通常需要预先知道门的类型(推拉门)和门的属性(例如铰链的位置),并且难以适应各种不同的门。此外,在开门后,机器人还需要精确地控制自身运动,以安全地通过狭窄的门道。这些问题限制了机器人在实际环境中的应用。

核心思路:本文的核心思路是利用深度学习,训练一个能够适应不同类型和属性的门的通用控制器。该控制器通过与环境的交互学习,能够在线估计门的属性,并根据估计结果调整自身的行为。此外,该控制器还能够学习如何安全地通过门道。

技术框架:该方法采用师生学习框架。教师网络在仿真环境中训练,学习最优的开门和穿越策略。学生网络则部署在真实的机器人上,通过模仿教师网络的行为来学习。整个框架包含以下几个主要模块:1) 状态估计模块,用于估计机器人的状态和门的状态;2) 动作规划模块,用于规划机器人的动作;3) 控制执行模块,用于执行规划的动作。

关键创新:该方法最重要的创新点在于,它能够学习一个通用的控制策略,无需预先知道门的类型和属性。这使得机器人能够适应各种不同的门,提高了机器人的鲁棒性和泛化能力。此外,该方法还能够在线估计门的属性,并根据估计结果调整自身的行为,进一步提高了机器人的适应性。

关键设计:教师网络采用强化学习算法进行训练,奖励函数的设计考虑了开门和穿越的效率、安全性以及对环境的适应性。学生网络采用模仿学习算法进行训练,损失函数为教师网络输出动作与学生网络输出动作之间的均方误差。在状态估计模块中,使用了卡尔曼滤波器来融合来自不同传感器的信息,提高状态估计的准确性。在动作规划模块中,使用了模型预测控制(MPC)算法来规划机器人的动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在配备手臂的ANYmal腿式机器人上进行了实验,结果表明,该方法在重复试验中成功率达到95.0%。此外,实验还验证了该策略对各种门和干扰的有效性和鲁棒性。与传统的基于规则的方法相比,该方法能够更好地适应各种不同的门,并且具有更强的鲁棒性。

🎯 应用场景

该研究成果可应用于服务机器人、搜救机器人等领域,使机器人能够在各种复杂环境中自主开门和穿越,从而扩大机器人的应用范围。例如,在灾难救援场景中,机器人可以自主打开被困人员所在房间的门,进行搜救工作。在智能家居场景中,机器人可以自主打开各个房间的门,提供各种服务。

📄 摘要(原文)

Using doors is a longstanding challenge in robotics and is of significant practical interest in giving robots greater access to human-centric spaces. The task is challenging due to the need for online adaptation to varying door properties and precise control in manipulating the door panel and navigating through the confined doorway. To address this, we propose a learning-based controller for a legged manipulator to open and traverse through doors. The controller is trained using a teacher-student approach in simulation to learn robust task behaviors as well as estimate crucial door properties during the interaction. Unlike previous works, our approach is a single control policy that can handle both push and pull doors through learned behaviour which infers the opening direction during deployment without prior knowledge. The policy was deployed on the ANYmal legged robot with an arm and achieved a success rate of 95.0% in repeated trials conducted in an experimental setting. Additional experiments validate the policy's effectiveness and robustness to various doors and disturbances. A video overview of the method and experiments can be found at youtu.be/tQDZXN_k5NU.