Learning Bipedal Walking on a Quadruped Robot via Adversarial Motion Priors
作者: Tianhu Peng, Lingfan Bao, Joseph Humphreys, Andromachi Maria Delfaki, Dimitrios Kanoulas, Chengxu Zhou
分类: cs.RO
发布日期: 2024-07-02
备注: 7 pages,5 figures
💡 一句话要点
利用对抗运动先验,学习四足机器人双足行走
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 四足机器人 双足行走 对抗学习 运动先验 师生策略 强化学习 复杂地形
📋 核心要点
- 四足机器人已在复杂地形上展现出敏捷和鲁棒的运动能力,但其双足运动模式仍有待验证。
- 本文提出一种基于对抗运动先验的师生策略,使四足机器人能够在双足模式下模仿参考轨迹并在复杂地形上导航。
- 仿真结果表明,该方法能够使四足机器人在双足模式下,于平坦和复杂地形(包括楼梯和不平坦表面)上稳定行走。
📝 摘要(中文)
本文探索了将原本为四足机器人设计的学习框架,迁移到四足机器人的双足运动模式,以实现盲步态。该框架结合了对抗运动先验和师生策略,使机器人能够模仿参考轨迹并在复杂地形上导航。我们的工作涉及在双足模式下,将类似的学习框架迁移到四足机器人上并进行评估,旨在实现其在平坦和复杂地形上的稳定行走。仿真结果表明,经过训练的策略使四足机器人能够在包括楼梯和不平坦表面在内的平坦和复杂地形上导航。
🔬 方法详解
问题定义:现有四足机器人的研究主要集中在四足运动上,缺乏对双足运动的探索。在复杂地形下,如何使四足机器人稳定地进行双足行走是一个挑战。现有方法难以直接迁移到双足模式,需要针对双足步态的特点进行改进。
核心思路:利用对抗运动先验,学习四足机器人的双足行走策略。通过模仿参考轨迹,使机器人能够学习到合理的步态。同时,利用对抗学习,提高策略的鲁棒性,使其能够在复杂地形下稳定行走。
技术框架:该框架主要包含以下几个模块:1) 运动先验模块:用于生成参考轨迹;2) 师生策略模块:教师策略用于生成高质量的动作,学生策略用于模仿教师策略;3) 对抗学习模块:用于提高策略的鲁棒性。整体流程是,首先利用运动先验模块生成参考轨迹,然后利用师生策略模块训练学生策略,最后利用对抗学习模块提高策略的鲁棒性。
关键创新:将对抗运动先验与师生策略相结合,用于学习四足机器人的双足行走策略。这种方法能够有效地利用参考轨迹,并提高策略的鲁棒性。与现有方法相比,该方法能够更好地适应复杂地形。
关键设计:对抗学习模块的设计是关键。通过引入一个判别器,用于区分真实运动和生成运动,从而提高策略的鲁棒性。损失函数包括模仿损失、对抗损失和正则化损失。网络结构包括Actor网络和Critic网络,Actor网络用于生成动作,Critic网络用于评估动作的质量。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,该方法能够使四足机器人在双足模式下,于平坦和复杂地形(包括楼梯和不平坦表面)上稳定行走。该方法能够有效地利用参考轨迹,并提高策略的鲁棒性,使其能够在复杂地形下稳定行走。具体性能数据未知。
🎯 应用场景
该研究成果可应用于搜救、勘探等领域。在这些场景中,四足机器人可能需要在复杂地形下进行双足行走,例如在狭窄空间或需要跨越障碍物时。该研究为四足机器人在这些场景中的应用提供了技术支持,具有重要的实际价值和潜在影响。
📄 摘要(原文)
Previous studies have successfully demonstrated agile and robust locomotion in challenging terrains for quadrupedal robots. However, the bipedal locomotion mode for quadruped robots remains unverified. This paper explores the adaptation of a learning framework originally designed for quadrupedal robots to operate blind locomotion in biped mode. We leverage a framework that incorporates Adversarial Motion Priors with a teacher-student policy to enable imitation of a reference trajectory and navigation on tough terrain. Our work involves transferring and evaluating a similar learning framework on a quadruped robot in biped mode, aiming to achieve stable walking on both flat and complicated terrains. Our simulation results demonstrate that the trained policy enables the quadruped robot to navigate both flat and challenging terrains, including stairs and uneven surfaces.