EGM: Efficiently Learning General Motion Tracking Policy for High Dynamic Humanoid Whole-Body Control

📄 arXiv: 2512.19043v1 📥 PDF

作者: Chao Yang, Yingkai Sun, Peng Ye, Xin Chen, Chong Yu, Tao Chen

分类: cs.RO

发布日期: 2025-12-22


💡 一句话要点

EGM:高效学习通用运动跟踪策略,用于高动态人形机器人全身控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人 全身控制 运动跟踪 强化学习 混合专家网络

📋 核心要点

  1. 现有运动跟踪方法在数据利用率和训练效率方面存在不足,难以有效跟踪高动态运动。
  2. EGM框架通过Bin-based采样、CDMoE架构和三阶段课程训练,提升数据质量和多样性,实现高效学习。
  3. 实验表明,EGM仅用少量数据训练,即可在多种运动中实现优异的泛化性能,优于现有方法。

📝 摘要(中文)

本文提出了一种名为EGM的框架,旨在高效学习通用的运动跟踪策略,用于人形机器人全身控制。传统方法在数据利用率和训练效率方面存在不足,并且在跟踪高动态运动时性能受限。EGM集成了四个核心设计:基于Bin的跨运动课程自适应采样策略,动态调整采样概率,平衡不同难度和时长的运动训练;复合解耦混合专家(CDMoE)架构,通过对上下身分别分组专家,并解耦正交专家处理专用和通用特征,从而增强跟踪不同分布运动的能力。该方法的核心在于数据质量和多样性。在此基础上,开发了一个三阶段课程训练流程,逐步提高策略对扰动的鲁棒性。仅使用4.08小时的数据进行训练,EGM在49.25小时的测试运动中表现出强大的泛化能力,优于基线方法,尤其是在常规和高动态任务中。

🔬 方法详解

问题定义:论文旨在解决人形机器人全身控制中,如何高效学习通用的运动跟踪策略的问题。现有方法通常数据利用率低,训练过程耗时,且难以有效跟踪高动态运动,导致泛化能力不足。

核心思路:论文的核心思路是通过提高训练数据的质量和多样性来提升策略的泛化能力。具体而言,通过自适应采样策略平衡不同难度运动的训练,并设计复合解耦混合专家网络来有效提取和利用运动特征。

技术框架:EGM框架包含三个主要阶段:首先,使用Bin-based Cross-motion Curriculum Adaptive Sampling策略对运动数据进行采样,该策略根据每个运动Bin的跟踪误差动态调整采样概率。然后,将采样数据输入到Composite Decoupled Mixture-of-Experts (CDMoE)架构中进行训练,该架构分别对上下身进行专家分组,并解耦正交专家处理专用和通用特征。最后,采用三阶段课程训练流程,逐步提高策略对扰动的鲁棒性。

关键创新:EGM的关键创新在于其数据采样策略和网络架构设计。Bin-based Cross-motion Curriculum Adaptive Sampling策略能够有效地平衡不同难度运动的训练,避免模型过度拟合简单运动或欠拟合复杂运动。CDMoE架构能够更好地提取和利用运动特征,提高模型的泛化能力。

关键设计:Bin-based采样策略中,根据运动的难度(通过跟踪误差衡量)将运动数据划分到不同的Bin中,并动态调整每个Bin的采样概率,使得模型能够更多地关注难度较高的运动。CDMoE架构中,上下身分别使用不同的专家组,每个专家组包含多个专家,用于提取不同的运动特征。此外,还设计了正交专家,用于分别处理专用特征和通用特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EGM框架仅使用4.08小时的数据进行训练,即可在49.25小时的测试运动中表现出强大的泛化能力。实验结果表明,EGM在常规和高动态任务中均优于基线方法。具体性能提升数据未知,但摘要强调了EGM在泛化能力方面的显著优势。

🎯 应用场景

EGM框架具有广泛的应用前景,可用于开发更智能、更灵活的人形机器人。例如,可以应用于人形机器人的运动控制、康复训练、人机交互等领域。通过学习通用的运动跟踪策略,机器人可以更好地适应不同的运动任务和环境,提高其自主性和适应性。该研究还有助于推动机器人技术在医疗、服务等领域的应用。

📄 摘要(原文)

Learning a general motion tracking policy from human motions shows great potential for versatile humanoid whole-body control. Conventional approaches are not only inefficient in data utilization and training processes but also exhibit limited performance when tracking highly dynamic motions. To address these challenges, we propose EGM, a framework that enables efficient learning of a general motion tracking policy. EGM integrates four core designs. Firstly, we introduce a Bin-based Cross-motion Curriculum Adaptive Sampling strategy to dynamically orchestrate the sampling probabilities based on tracking error of each motion bin, eficiently balancing the training process across motions with varying dificulty and durations. The sampled data is then processed by our proposed Composite Decoupled Mixture-of-Experts (CDMoE) architecture, which efficiently enhances the ability to track motions from different distributions by grouping experts separately for upper and lower body and decoupling orthogonal experts from shared experts to separately handle dedicated features and general features. Central to our approach is a key insight we identified: for training a general motion tracking policy, data quality and diversity are paramount. Building on these designs, we develop a three-stage curriculum training flow to progressively enhance the policy's robustness against disturbances. Despite training on only 4.08 hours of data, EGM generalized robustly across 49.25 hours of test motions, outperforming baselines on both routine and highly dynamic tasks.