KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control

📄 arXiv: 2509.16638v1 📥 PDF

作者: Jinrui Han, Weiji Xie, Jiakun Zheng, Jiyuan Shi, Weinan Zhang, Ting Xiao, Chenjia Bai

分类: cs.RO, cs.AI

发布日期: 2025-09-20


💡 一句话要点

KungfuBot2:学习通用运动技能的人形机器人全身控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 人形机器人 全身控制 运动技能学习 混合专家 强化学习

📋 核心要点

  1. 现有方法难以让人形机器人在长时程序列中稳定地掌握多样化运动技能。
  2. VMS框架通过混合跟踪目标和正交混合专家架构,实现局部保真和全局一致的运动控制。
  3. 实验表明VMS能准确模仿动态技能,在长时程中表现稳定,并能泛化到未见运动。

📝 摘要(中文)

通过跟踪各种人类运动来学习通用的全身技能是通用人形机器人迈出的基础一步。这项任务尤其具有挑战性,因为单个策略必须掌握广泛的运动技能,同时确保长时程序列的稳定性。为此,我们提出了VMS,一个统一的全身控制器,使人形机器人能够在单个策略中学习多样化和动态的行为。我们的框架集成了一个混合跟踪目标,该目标平衡了局部运动保真度和全局轨迹一致性,以及一个正交混合专家(OMoE)架构,该架构鼓励技能专业化,同时增强了跨运动的泛化能力。进一步引入了分段级跟踪奖励,以放宽刚性的逐步匹配,从而增强了处理全局位移和瞬时不准确性的鲁棒性。我们在仿真和真实世界的实验中广泛验证了VMS,证明了对动态技能的准确模仿,在长达一分钟的序列中的稳定性能,以及对未见运动的强大泛化能力。这些结果突出了VMS作为通用人形全身控制的可扩展基础的潜力。

🔬 方法详解

问题定义:论文旨在解决人形机器人全身控制中,如何让单个策略学习并稳定执行多样化、动态的人类运动技能的问题。现有方法通常难以在保证局部运动模仿精度的同时,维持全局轨迹的一致性和长期稳定性,尤其是在面对未见过的运动时,泛化能力不足。

核心思路:论文的核心思路是设计一个统一的全身控制器VMS,它能够平衡局部运动的保真度和全局轨迹的一致性,并通过正交混合专家架构来提升技能的专业化和泛化能力。通过分段级跟踪奖励,放松了对每一步精确匹配的要求,从而增强了对全局位移和瞬时误差的鲁棒性。

技术框架:VMS框架包含以下几个主要模块:1) 混合跟踪目标:结合局部运动保真度和全局轨迹一致性,指导策略学习;2) 正交混合专家(OMoE)架构:利用多个专家网络学习不同的运动技能,并通过正交约束鼓励专家之间的专业化;3) 分段级跟踪奖励:将奖励函数设计为基于运动片段而非单步,提高鲁棒性。整体流程是,首先收集人类运动数据,然后利用VMS框架训练人形机器人的控制策略,最后在仿真和真实机器人上进行测试。

关键创新:论文的关键创新在于以下几点:1) 提出了混合跟踪目标,同时考虑局部和全局的运动约束;2) 设计了正交混合专家架构,鼓励技能专业化和泛化;3) 引入了分段级跟踪奖励,提高了对误差的鲁棒性。与现有方法相比,VMS能够更好地平衡运动精度、稳定性和泛化能力。

关键设计:混合跟踪目标通过加权组合局部运动保真度损失和全局轨迹一致性损失来实现。正交混合专家架构中,专家网络的输出通过softmax函数进行加权,并施加正交约束,以保证专家之间的独立性。分段级跟踪奖励基于运动片段的平均状态误差计算,而非单步误差,从而降低了对瞬时误差的敏感性。具体的参数设置和损失函数权重需要根据具体任务进行调整。

📊 实验亮点

实验结果表明,VMS在仿真和真实机器人上都取得了显著的性能提升。VMS能够准确模仿各种动态运动技能,例如跑步、跳跃、翻滚等,并且能够在长达一分钟的序列中保持稳定。与基线方法相比,VMS在运动精度、稳定性和泛化能力方面均有明显提升,尤其是在处理未见过的运动时,VMS的性能优势更加突出。

🎯 应用场景

该研究成果可应用于各种需要人形机器人进行复杂运动控制的场景,例如:灾难救援、医疗辅助、家庭服务、体育娱乐等。通过学习人类的运动技能,人形机器人可以更好地适应复杂环境,完成各种任务,提高工作效率和安全性。未来,该技术有望推动人形机器人在更多领域的应用,并促进人机协作的发展。

📄 摘要(原文)

Learning versatile whole-body skills by tracking various human motions is a fundamental step toward general-purpose humanoid robots. This task is particularly challenging because a single policy must master a broad repertoire of motion skills while ensuring stability over long-horizon sequences. To this end, we present VMS, a unified whole-body controller that enables humanoid robots to learn diverse and dynamic behaviors within a single policy. Our framework integrates a hybrid tracking objective that balances local motion fidelity with global trajectory consistency, and an Orthogonal Mixture-of-Experts (OMoE) architecture that encourages skill specialization while enhancing generalization across motions. A segment-level tracking reward is further introduced to relax rigid step-wise matching, enhancing robustness when handling global displacements and transient inaccuracies. We validate VMS extensively in both simulation and real-world experiments, demonstrating accurate imitation of dynamic skills, stable performance over minute-long sequences, and strong generalization to unseen motions. These results highlight the potential of VMS as a scalable foundation for versatile humanoid whole-body control. The project page is available at https://kungfubot2-humanoid.github.io.