KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control
作者: Jinrui Han, Weiji Xie, Jiakun Zheng, Jiyuan Shi, Weinan Zhang, Ting Xiao, Chenjia Bai
分类: cs.RO, cs.AI
发布日期: 2025-09-20
💡 一句话要点
KungfuBot2:学习通用运动技能的人形机器人全身控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 全身控制 运动技能学习 模仿学习 混合专家网络
📋 核心要点
- 现有方法难以让人形机器人同时掌握多样运动技能并保证长时程稳定性。
- 论文提出VMS框架,通过混合追踪目标和正交混合专家网络实现技能学习。
- 实验表明VMS在模仿动态技能、保持稳定性和泛化能力方面表现出色。
📝 摘要(中文)
通过追踪各种人体运动来学习通用的全身技能是通用人形机器人迈出的基础一步。这项任务极具挑战性,因为单个策略必须掌握广泛的运动技能,同时确保长时程序列的稳定性。为此,我们提出了VMS,一个统一的全身控制器,使人形机器人能够在单个策略中学习多样化和动态的行为。我们的框架集成了一个混合追踪目标,该目标平衡了局部运动保真度和全局轨迹一致性,以及一个正交混合专家(OMoE)架构,该架构鼓励技能专业化,同时增强了跨运动的泛化能力。进一步引入了分段级别的跟踪奖励,以放宽刚性的逐步匹配,从而增强了处理全局位移和瞬时不准确性的鲁棒性。我们在仿真和真实世界的实验中广泛验证了VMS,证明了对动态技能的准确模仿,在长达数分钟的序列中的稳定性能,以及对未见运动的强大泛化能力。这些结果突出了VMS作为通用人形机器人全身控制的可扩展基础的潜力。
🔬 方法详解
问题定义:论文旨在解决人形机器人全身控制中,如何通过单个策略学习多样且动态的运动技能,并保证长时程稳定性的问题。现有方法通常难以兼顾运动的多样性、准确性和稳定性,尤其是在面对复杂和长时间的运动序列时,容易出现误差累积和控制失效等问题。
核心思路:论文的核心思路是将运动技能的学习分解为局部运动保真度和全局轨迹一致性两个方面,并设计相应的目标函数进行优化。同时,利用正交混合专家网络(OMoE)来鼓励不同专家学习不同的运动技能,从而提高策略的泛化能力和适应性。通过分段级别的跟踪奖励,放松了对每一步运动的严格匹配,从而增强了对全局位移和瞬时误差的鲁棒性。
技术框架:VMS框架主要包含以下几个模块:1) 混合追踪目标:结合了局部运动保真度(例如,关节角度、速度)和全局轨迹一致性(例如,质心位置、方向)的追踪目标,以确保机器人既能准确模仿人类运动,又能保持整体的平衡和稳定。2) 正交混合专家网络(OMoE):由多个专家网络和一个门控网络组成,每个专家网络负责学习一种或多种运动技能,门控网络根据当前状态选择合适的专家进行控制。正交性约束鼓励专家学习不同的技能。3) 分段级别跟踪奖励:将运动序列划分为多个片段,并对每个片段的整体表现进行奖励,而不是对每一步都进行严格匹配,从而提高了对噪声和误差的鲁棒性。
关键创新:论文的关键创新在于以下几个方面:1) 提出了混合追踪目标,能够同时优化局部运动保真度和全局轨迹一致性。2) 引入了正交混合专家网络(OMoE),能够有效地学习和泛化多种运动技能。3) 提出了分段级别跟踪奖励,提高了对噪声和误差的鲁棒性。与现有方法相比,VMS能够更好地平衡运动的多样性、准确性和稳定性,从而实现更通用的人形机器人全身控制。
关键设计:混合追踪目标中的权重参数用于平衡局部和全局目标的重要性。OMoE中的正交性约束通过损失函数实现,鼓励专家学习不同的技能。分段级别跟踪奖励的片段长度需要根据具体的运动类型进行调整。网络结构方面,专家网络和门控网络通常采用多层感知机(MLP)。损失函数包括运动学损失、动力学损失和正则化损失等。
🖼️ 关键图片
📊 实验亮点
VMS在仿真和真实机器人实验中均表现出色。在模仿动态技能方面,VMS能够准确地复现人类的运动轨迹。在长时程稳定性方面,VMS能够在数分钟的运动序列中保持稳定。在泛化能力方面,VMS能够成功地泛化到未见过的运动类型。实验结果表明,VMS在各项指标上均优于现有的基线方法。
🎯 应用场景
该研究成果可应用于各种需要人形机器人进行复杂运动的场景,例如:搜救、医疗、康复、娱乐等。通过学习人类的运动技能,人形机器人可以更好地适应复杂环境,完成各种任务,提高工作效率和安全性。未来,该技术有望推动人形机器人在家庭服务、工业自动化等领域的广泛应用。
📄 摘要(原文)
Learning versatile whole-body skills by tracking various human motions is a fundamental step toward general-purpose humanoid robots. This task is particularly challenging because a single policy must master a broad repertoire of motion skills while ensuring stability over long-horizon sequences. To this end, we present VMS, a unified whole-body controller that enables humanoid robots to learn diverse and dynamic behaviors within a single policy. Our framework integrates a hybrid tracking objective that balances local motion fidelity with global trajectory consistency, and an Orthogonal Mixture-of-Experts (OMoE) architecture that encourages skill specialization while enhancing generalization across motions. A segment-level tracking reward is further introduced to relax rigid step-wise matching, enhancing robustness when handling global displacements and transient inaccuracies. We validate VMS extensively in both simulation and real-world experiments, demonstrating accurate imitation of dynamic skills, stable performance over minute-long sequences, and strong generalization to unseen motions. These results highlight the potential of VMS as a scalable foundation for versatile humanoid whole-body control. The project page is available at https://kungfubot2-humanoid.github.io.