Learning Whole-Body Humanoid Locomotion via Motion Generation and Motion Tracking
作者: Zewei Zhang, Kehan Wen, Michael Xu, Junzhe He, Chenhao Li, Takahiro Miki, Clemens Schwarke, Chong Zhang, Xue Bin Peng, Marco Hutter
分类: cs.RO
发布日期: 2026-04-19
💡 一句话要点
提出一种融合运动生成与跟踪的全身人形机器人运动学习框架,实现地形感知步态控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 全身运动控制 强化学习 扩散模型 地形感知
📋 核心要点
- 现有方法难以让人形机器人适应复杂地形,且易出现下肢主导的运动模式,全身协调性不足。
- 该方法结合扩散模型生成地形感知参考运动,并使用强化学习训练全身运动跟踪器,提升适应性。
- 实验表明,该系统成功控制Unitree G1机器人穿越多种复杂地形,验证了在线运动生成和跟踪微调的有效性。
📝 摘要(中文)
全身人形机器人运动控制面临高维控制、形态不稳定以及需要利用板载感知实时适应各种地形的挑战。直接应用强化学习(RL)进行人形机器人运动控制通常导致以下肢为主的行为,而基于模仿的RL可以学习更协调的全身技能,但通常仅限于重放参考运动,缺乏从感知在线适应地形感知运动的机制。为了解决这个问题,我们提出了一个全身人形机器人运动框架,该框架结合了从参考运动中学习的技能和地形感知适应。我们首先在重新定位的人类运动上训练扩散模型,用于实时预测地形感知的参考运动。同时,我们使用该运动数据通过RL训练全身参考跟踪器。为了提高在不完美生成的参考下的鲁棒性,我们进一步在闭环设置中使用冻结的运动生成器微调跟踪器。最终系统支持具有地形感知全身适应的方向目标到达控制,并且可以部署在具有板载感知和计算的宇树G1人形机器人上。硬件实验证明了成功穿越箱子、障碍物、楼梯和混合地形组合。定量结果进一步表明了结合在线运动生成和微调运动跟踪器以提高泛化性和鲁棒性的好处。
🔬 方法详解
问题定义:论文旨在解决全身人形机器人在复杂地形下的运动控制问题。现有方法,如直接使用强化学习,容易导致机器人以下肢运动为主,缺乏全身协调性。而基于模仿学习的方法虽然能学习全身运动,但难以根据实时感知到的地形信息进行在线调整,泛化能力有限。
核心思路:论文的核心思路是将运动生成和运动跟踪相结合。首先,利用扩散模型生成地形感知的参考运动,为机器人提供期望的运动轨迹。然后,通过强化学习训练运动跟踪器,使机器人能够尽可能地复现参考运动,并在此基础上进行调整,以适应实际环境中的扰动和不确定性。
技术框架:整体框架包含两个主要模块:运动生成器和运动跟踪器。运动生成器基于扩散模型,输入地形信息,输出全身参考运动。运动跟踪器则是一个强化学习智能体,接收机器人的状态和参考运动,输出控制指令,驱动机器人运动。为了提高鲁棒性,论文还采用了闭环微调策略,即在运动生成器固定的情况下,进一步训练运动跟踪器。
关键创新:论文的关键创新在于将扩散模型用于人形机器人的运动生成,并将其与强化学习相结合,实现地形感知的全身运动控制。与传统的运动规划方法相比,扩散模型能够生成更加自然和流畅的运动轨迹。同时,通过强化学习,运动跟踪器能够学习到适应环境变化的控制策略。
关键设计:运动生成器使用扩散模型,以人类运动数据为训练集,学习从地形信息到全身运动的映射。运动跟踪器使用Actor-Critic架构的强化学习算法,奖励函数鼓励机器人跟踪参考运动,并惩罚不自然的姿态和过大的力矩。闭环微调阶段,运动生成器的参数被冻结,只更新运动跟踪器的参数,以提高其对不完美参考运动的鲁棒性。
🖼️ 关键图片
📊 实验亮点
该研究在Unitree G1人形机器人上进行了硬件实验,验证了所提出方法的有效性。实验结果表明,该机器人能够成功穿越箱子、障碍物、楼梯和混合地形等复杂环境。定量结果还表明,结合在线运动生成和微调运动跟踪器可以显著提高机器人的泛化性和鲁棒性。
🎯 应用场景
该研究成果可应用于人形机器人在复杂环境下的自主导航、搜索救援、工业巡检等领域。通过结合视觉感知和运动控制,人形机器人能够更好地适应各种地形,完成更加复杂的任务。未来,该技术有望推动人形机器人在服务机器人、医疗康复等领域的广泛应用。
📄 摘要(原文)
Whole-body humanoid locomotion is challenging due to high-dimensional control, morphological instability, and the need for real-time adaptation to various terrains using onboard perception. Directly applying reinforcement learning (RL) with reward shaping to humanoid locomotion often leads to lower-body-dominated behaviors, whereas imitation-based RL can learn more coordinated whole-body skills but is typically limited to replaying reference motions without a mechanism to adapt them online from perception for terrain-aware locomotion. To address this gap, we propose a whole-body humanoid locomotion framework that combines skills learned from reference motions with terrain-aware adaptation. We first train a diffusion model on retargeted human motions for real-time prediction of terrain-aware reference motions. Concurrently, we train a whole-body reference tracker with RL using this motion data. To improve robustness under imperfectly generated references, we further fine-tune the tracker with a frozen motion generator in a closed-loop setting. The resulting system supports directional goal-reaching control with terrain-aware whole-body adaptation, and can be deployed on a Unitree G1 humanoid robot with onboard perception and computation. The hardware experiments demonstrate successful traversal over boxes, hurdles, stairs, and mixed terrain combinations. Quantitative results further show the benefits of incorporating online motion generation and fine-tuning the motion tracker for improved generalization and robustness.