Learning Humanoid Locomotion with Perceptive Internal Model

📄 arXiv: 2411.14386v1 📥 PDF

作者: Junfeng Long, Junli Ren, Moji Shi, Zirui Wang, Tao Huang, Ping Luo, Jiangmiao Pang

分类: cs.RO

发布日期: 2024-11-21

备注: submitted to ICRA2025


💡 一句话要点

提出基于感知内部模型的类人机器人运动控制方法,提升复杂地形适应性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 类人机器人 运动控制 地形感知 深度学习 强化学习

📋 核心要点

  1. 类人机器人由于高自由度和不稳定的形态,需要精确感知才能稳定运动,但感知信号的引入会带来干扰。
  2. 论文提出感知内部模型(PIM),利用机器人自身携带的、持续更新的局部高度图来感知环境,降低感知噪声影响。
  3. 实验表明,该方法在多种地形和机器人上有效,使机器人能够连续爬楼梯,训练效率高,仅需3小时。

📝 摘要(中文)

本文提出了一种名为感知内部模型(PIM)的方法,用于提升类人机器人的运动控制能力。与四足机器人不同,类人机器人需要精确的感知才能实现稳定的运动。PIM依赖于机器人自身携带的、持续更新的、以机器人为中心的局部高度图来感知周围环境。该策略在模拟环境中进行训练,使用真实障碍物高度,并基于混合内部模型(HIM)进行优化。推理阶段,则使用从构建的高度图中采样的高度值。与直接编码深度图或原始点云的方法不同,PIM使机器人能够清晰地感知脚下的地形,并且受相机运动或噪声的影响较小。此外,由于模拟中不需要深度图渲染,该方法引入的额外计算成本极低,可以在RTX 4090 GPU上在3小时内完成策略训练。实验验证了该方法在各种类人机器人、室内外地形、楼梯和各种传感器配置下的有效性。该方法使类人机器人能够连续爬楼梯,并有潜力成为未来类人控制方法的基础算法。

🔬 方法详解

问题定义:类人机器人相比四足机器人,由于其高自由度和固有的不稳定性,需要更精确的感知信息才能实现稳定的运动控制。然而,直接将感知信号融入控制策略往往会引入额外的噪声和干扰,降低系统的鲁棒性、泛化能力和效率。现有方法,例如直接编码深度图或原始点云,容易受到相机运动和噪声的影响,且计算成本较高。

核心思路:论文的核心思路是构建一个“感知内部模型”(Perceptive Internal Model, PIM),该模型利用机器人自身携带的、持续更新的局部高度图来表示周围环境。通过这种方式,机器人可以更清晰地感知脚下的地形,并且减少了对原始深度数据或点云的依赖,从而降低了感知噪声的影响。这种设计使得机器人能够更好地适应复杂地形,并提高运动控制的稳定性。

技术框架:PIM方法的整体框架包括以下几个主要模块:1) 环境感知模块:该模块负责构建以机器人为中心的局部高度图,高度图通过传感器数据(如深度相机)获取,并进行实时更新。2) 策略训练模块:该模块在模拟环境中训练控制策略,使用真实的障碍物高度信息。策略基于混合内部模型(Hybrid Internal Model, HIM)进行优化。3) 策略推理模块:在实际应用中,该模块使用从构建的高度图中采样的高度值作为输入,驱动机器人的运动控制。

关键创新:PIM方法的关键创新在于其感知方式。与直接使用深度图或点云的方法不同,PIM构建了一个局部高度图,使机器人能够更清晰地感知脚下的地形。这种表示方式减少了对原始深度数据的依赖,降低了相机运动和噪声的影响。此外,由于在模拟环境中不需要进行深度图渲染,该方法显著降低了计算成本,提高了训练效率。

关键设计:在PIM方法中,几个关键的设计包括:1) 局部高度图的构建:高度图以机器人为中心,覆盖机器人周围一定范围内的地形。高度图的分辨率和更新频率需要根据具体的应用场景进行调整。2) 混合内部模型(HIM):HIM用于优化控制策略,它结合了模型预测控制和强化学习的优点,提高了策略的鲁棒性和泛化能力。3) 高度采样策略:在推理阶段,从高度图中采样的高度值作为控制策略的输入。采样策略需要保证采样的代表性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PIM方法在多种类人机器人平台上均有效,能够在各种室内外地形和楼梯上实现稳定的运动控制。该方法使类人机器人能够连续爬楼梯,并且训练效率高,仅需在RTX 4090 GPU上训练3小时。与现有方法相比,PIM方法在鲁棒性、泛化能力和计算效率方面均有显著提升。

🎯 应用场景

该研究成果可广泛应用于类人机器人的运动控制领域,尤其是在复杂地形下的导航和操作任务中。例如,在灾难救援、建筑工地、家庭服务等场景中,类人机器人需要具备在各种复杂地形下稳定行走和执行任务的能力。PIM方法为实现这一目标提供了一种有效的解决方案,并有望推动类人机器人在实际应用中的普及。

📄 摘要(原文)

In contrast to quadruped robots that can navigate diverse terrains using a "blind" policy, humanoid robots require accurate perception for stable locomotion due to their high degrees of freedom and inherently unstable morphology. However, incorporating perceptual signals often introduces additional disturbances to the system, potentially reducing its robustness, generalizability, and efficiency. This paper presents the Perceptive Internal Model (PIM), which relies on onboard, continuously updated elevation maps centered around the robot to perceive its surroundings. We train the policy using ground-truth obstacle heights surrounding the robot in simulation, optimizing it based on the Hybrid Internal Model (HIM), and perform inference with heights sampled from the constructed elevation map. Unlike previous methods that directly encode depth maps or raw point clouds, our approach allows the robot to perceive the terrain beneath its feet clearly and is less affected by camera movement or noise. Furthermore, since depth map rendering is not required in simulation, our method introduces minimal additional computational costs and can train the policy in 3 hours on an RTX 4090 GPU. We verify the effectiveness of our method across various humanoid robots, various indoor and outdoor terrains, stairs, and various sensor configurations. Our method can enable a humanoid robot to continuously climb stairs and has the potential to serve as a foundational algorithm for the development of future humanoid control methods.