Humanoid Parkour Learning
作者: Ziwen Zhuang, Shenzhe Yao, Hang Zhao
分类: cs.RO
发布日期: 2024-06-15 (更新: 2024-09-26)
备注: Published on CoRL 2024
💡 一句话要点
提出基于视觉的人形机器人跑酷学习框架,无需运动先验即可完成复杂动作。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 跑酷学习 强化学习 视觉控制 全身控制
📋 核心要点
- 现有的人形机器人运动方法通常针对单个跑酷轨迹进行优化,或仅通过大量运动参考来训练强化学习策略以实现行走,缺乏通用性和灵活性。
- 该论文提出了一种端到端的视觉跑酷学习框架,直接从视觉输入学习全身控制策略,无需任何运动先验知识,从而实现更灵活的跑酷技能。
- 实验结果表明,该方法能够使人形机器人在复杂环境中完成跳跃、跨越等多种跑酷动作,并具有一定的泛化能力,可应用于移动操作任务。
📝 摘要(中文)
本文提出了一种端到端的、基于视觉的人形机器人全身控制跑酷策略学习框架,该框架无需任何运动先验知识,即可使人形机器人掌握多种跑酷技能。利用该策略,机器人能够跳上0.42米的平台,跨越障碍物和0.8米的间隙,并以1.8米/秒的速度在野外奔跑,以及在不同地形上稳健行走。通过室内和室外环境的测试,验证了该策略能够自主选择跑酷技能,同时跟随操纵杆的旋转指令。此外,通过重写手臂动作,证明该框架可以轻松迁移到人形移动操作任务中。
🔬 方法详解
问题定义:现有的人形机器人运动控制方法,要么依赖于预先设计的轨迹优化,难以适应复杂多变的环境;要么依赖于大量的运动参考数据,限制了机器人运动的灵活性和创造性。因此,如何让人形机器人自主学习并掌握复杂的跑酷技能,成为了一个具有挑战性的问题。
核心思路:本文的核心思路是利用强化学习,直接从视觉输入学习人形机器人的全身控制策略。通过奖励函数的设计,鼓励机器人学习各种跑酷动作,并使其能够根据环境自主选择合适的技能。这种端到端的学习方式,避免了人工设计运动轨迹的复杂性,并提高了机器人的适应性和鲁棒性。
技术框架:该框架主要包含以下几个模块:1) 视觉感知模块,负责从摄像头获取环境信息;2) 策略网络,根据视觉输入输出机器人的关节控制指令;3) 物理引擎模拟器,用于训练和评估策略网络;4) 奖励函数,用于指导策略网络的学习方向。整个训练过程采用强化学习算法,通过不断与环境交互,优化策略网络,最终使机器人掌握跑酷技能。
关键创新:该论文最重要的创新点在于,提出了一种端到端的视觉跑酷学习框架,无需任何运动先验知识,即可使人形机器人掌握多种跑酷技能。与现有方法相比,该方法更加灵活、通用,并且能够更好地适应复杂多变的环境。此外,该框架还能够轻松迁移到人形移动操作任务中,具有很高的应用价值。
关键设计:奖励函数的设计是该框架的关键。为了鼓励机器人学习各种跑酷动作,奖励函数包含了多个组成部分,例如:前进速度奖励、平衡奖励、动作奖励等。此外,为了提高机器人的鲁棒性,还引入了噪声注入和领域随机化等技术。策略网络采用深度神经网络,输入为视觉图像,输出为机器人的关节控制指令。训练过程中,采用PPO等强化学习算法进行优化。
🖼️ 关键图片
📊 实验亮点
该论文提出的方法能够使人形机器人成功完成多种跑酷动作,包括跳上0.42米的平台,跨越障碍物和0.8米的间隙。此外,机器人还能够以1.8米/秒的速度在野外奔跑,并在不同地形上稳健行走。实验结果表明,该方法具有良好的泛化能力和鲁棒性,能够适应复杂多变的环境。
🎯 应用场景
该研究成果可应用于搜救、勘探、巡检等危险或复杂环境中的任务。例如,在灾后救援中,人形机器人可以利用跑酷技能快速穿越废墟,搜寻幸存者。在工业巡检中,机器人可以跨越障碍物,对设备进行检测和维护。此外,该技术还可以应用于娱乐领域,例如开发人形机器人跑酷游戏等。
📄 摘要(原文)
Parkour is a grand challenge for legged locomotion, even for quadruped robots, requiring active perception and various maneuvers to overcome multiple challenging obstacles. Existing methods for humanoid locomotion either optimize a trajectory for a single parkour track or train a reinforcement learning policy only to walk with a significant amount of motion references. In this work, we propose a framework for learning an end-to-end vision-based whole-body-control parkour policy for humanoid robots that overcomes multiple parkour skills without any motion prior. Using the parkour policy, the humanoid robot can jump on a 0.42m platform, leap over hurdles, 0.8m gaps, and much more. It can also run at 1.8m/s in the wild and walk robustly on different terrains. We test our policy in indoor and outdoor environments to demonstrate that it can autonomously select parkour skills while following the rotation command of the joystick. We override the arm actions and show that this framework can easily transfer to humanoid mobile manipulation tasks. Videos can be found at https://humanoid4parkour.github.io