Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning

📄 arXiv: 2502.17219v2 📥 PDF

作者: Weiji Xie, Chenjia Bai, Jiyuan Shi, Junkai Yang, Yunfei Ge, Weinan Zhang, Xuelong Li

分类: cs.RO, cs.LG

发布日期: 2025-02-24 (更新: 2025-02-28)

备注: This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出基于动态平衡和强化学习的人形机器人窄地形全身运动算法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 全身运动 动态平衡 强化学习 窄地形 本体感觉 零力矩点 actor-critic

📋 核心要点

  1. 现有的人形机器人运动算法难以在缺乏外部感知的情况下,应对极端环境,尤其是在不可观测的障碍物和突发的平衡损失面前。
  2. 论文提出一种基于动态平衡机制和强化学习的全身运动算法,通过ZMP驱动和任务驱动奖励,协调上下肢动作,增强平衡能力。
  3. 在Unitree H1-2机器人上的实验表明,该方法能够使机器人在极窄地形和外部干扰下保持平衡,提升了对复杂环境的适应性。

📝 摘要(中文)

本文提出了一种基于动态平衡和强化学习(RL)的全身运动算法,旨在使人形机器人仅通过本体感觉就能在极端地形(特别是狭窄路径和意外障碍)上行走。该方法通过在全身actor-critic框架中引入扩展的零力矩点(ZMP)驱动奖励和任务驱动奖励,实现动态平衡机制,从而协调上下肢的动作,实现稳健的运动。在全尺寸的宇树H1-2机器人上进行的实验验证了该方法在极窄地形和外部干扰下保持平衡的能力,证明了其在增强机器人对复杂环境的适应性方面的有效性。

🔬 方法详解

问题定义:现有的人形机器人运动算法在极端地形,特别是狭窄地形和存在不可预测障碍物的环境中,表现不佳。这些算法通常依赖于预定义的步态或基于视觉、激光雷达等外部感知的奖励函数,缺乏处理突发平衡损失和未知障碍物的能力,导致鲁棒性不足。

核心思路:论文的核心思路是利用强化学习训练一个能够根据本体感觉(如关节角度、速度等)自主控制全身运动的策略,并通过引入动态平衡机制来提高策略的鲁棒性。具体来说,通过扩展零力矩点(ZMP)的概念,设计奖励函数,引导机器人维持平衡,同时结合任务驱动的奖励,鼓励机器人完成特定的运动目标。

技术框架:整体框架是一个actor-critic的强化学习框架。Actor网络负责输出机器人的关节控制指令,Critic网络负责评估当前状态和动作的价值。环境是物理仿真环境,模拟了各种复杂地形和外部干扰。训练过程中,机器人通过与环境交互,不断优化actor和critic网络。

关键创新:该方法最重要的创新在于将动态平衡机制融入到强化学习的奖励函数中。传统的强化学习方法通常只关注任务完成情况,而忽略了机器人的平衡状态。通过引入ZMP相关的奖励,可以有效地引导机器人学习维持平衡的策略,从而提高其在复杂环境中的鲁棒性。此外,该方法仅依赖于本体感觉,无需外部感知,使其更适用于实际应用。

关键设计:奖励函数的设计是关键。除了任务相关的奖励(如前进速度、方向等),还包括ZMP相关的奖励,例如ZMP与支撑区域中心的距离、ZMP变化率等。Actor和Critic网络通常采用多层感知机(MLP)结构。训练过程中,使用常见的强化学习算法,如PPO(Proximal Policy Optimization)。具体的参数设置(如学习率、折扣因子、奖励权重等)需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够使Unitree H1-2机器人在宽度仅为脚掌宽度1.2倍的极窄地形上稳定行走,并且能够有效抵抗外部干扰。与传统的基于步态的控制方法相比,该方法在复杂地形上的适应性和鲁棒性显著提高。具体性能数据(如行走速度、平衡恢复时间等)未在摘要中明确给出,需参考论文全文。

🎯 应用场景

该研究成果可应用于人形机器人在复杂环境下的自主导航、搜索救援、工业巡检等领域。例如,在灾后救援中,机器人可以在瓦砾堆等复杂地形中行走,寻找幸存者。在工业巡检中,机器人可以在狭窄的管道或设备间穿梭,进行设备维护和故障排查。未来,该技术有望进一步提升人形机器人在各种实际场景中的应用能力。

📄 摘要(原文)

Humans possess delicate dynamic balance mechanisms that enable them to maintain stability across diverse terrains and under extreme conditions. However, despite significant advances recently, existing locomotion algorithms for humanoid robots are still struggle to traverse extreme environments, especially in cases that lack external perception (e.g., vision or LiDAR). This is because current methods often rely on gait-based or perception-condition rewards, lacking effective mechanisms to handle unobservable obstacles and sudden balance loss. To address this challenge, we propose a novel whole-body locomotion algorithm based on dynamic balance and Reinforcement Learning (RL) that enables humanoid robots to traverse extreme terrains, particularly narrow pathways and unexpected obstacles, using only proprioception. Specifically, we introduce a dynamic balance mechanism by leveraging an extended measure of Zero-Moment Point (ZMP)-driven rewards and task-driven rewards in a whole-body actor-critic framework, aiming to achieve coordinated actions of the upper and lower limbs for robust locomotion. Experiments conducted on a full-sized Unitree H1-2 robot verify the ability of our method to maintain balance on extremely narrow terrains and under external disturbances, demonstrating its effectiveness in enhancing the robot's adaptability to complex environments. The videos are given at https://whole-body-loco.github.io.