UniTracker: Learning Universal Whole-Body Motion Tracker for Humanoid Robots
作者: Kangning Yin, Weishuai Zeng, Ke Fan, Minyue Dai, Zirui Wang, Qiang Zhang, Zheng Tian, Jingbo Wang, Jiangmiao Pang, Weinan Zhang
分类: cs.RO
发布日期: 2025-07-10 (更新: 2025-09-18)
备注: three-stage universal motion tracker for humanoid robots
💡 一句话要点
UniTracker:面向人形机器人的通用全身运动跟踪器学习框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 全身运动跟踪 条件变分自编码器 强化学习 运动控制
📋 核心要点
- 现有方法难以在部分观测下实现人形机器人全身运动的鲁棒跟踪,尤其是在方向等全局属性上容易出现漂移。
- UniTracker通过三阶段训练,利用CVAE学习运动的全局潜在表示,并引入快速自适应模块,提升跟踪性能和泛化能力。
- 在Unitree G1机器人上的实验表明,UniTracker在运动多样性、跟踪精度和部署鲁棒性方面均表现出色。
📝 摘要(中文)
本文提出UniTracker,一个三阶段训练框架,旨在实现对人形机器人全身运动的鲁棒且可泛化的控制,使其能够适应真实环境中的各种人类行为。第一阶段,使用特权观测训练一个教师策略,生成高质量的动作。第二阶段,引入条件变分自编码器(CVAE)来建模一个通用的学生策略,可以直接部署在真实硬件上。CVAE结构使策略能够学习运动的全局潜在表示,增强对未见行为的泛化能力,并解决标准MLP策略在部分观测下的局限性。与容易出现方向等全局属性漂移的纯MLP不同,CVAE学生策略通过将部分观测先验与完整观测编码器对齐,在训练期间融入全局意图。第三阶段,引入快速自适应模块,在更难的运动序列上微调通用策略。这种自适应可以针对单个序列和批量模式执行,进一步展示了该方法的灵活性和可扩展性。在Unitree G1人形机器人上进行了仿真和真实环境的评估,结果表明UniTracker在运动多样性、跟踪精度和部署鲁棒性方面表现出色。
🔬 方法详解
问题定义:论文旨在解决人形机器人在真实环境中全身运动跟踪的问题。现有方法,特别是基于MLP的策略,在部分观测下容易出现全局属性(如方向)的漂移,并且泛化能力有限,难以适应各种人类行为。
核心思路:论文的核心思路是利用条件变分自编码器(CVAE)学习运动的全局潜在表示,从而增强策略的泛化能力和鲁棒性。通过三阶段训练框架,逐步提升策略的性能,并引入快速自适应模块以适应更难的运动序列。
技术框架:UniTracker包含三个主要阶段:1) 教师策略训练:使用特权观测训练一个教师策略,生成高质量的动作作为训练目标。2) 学生策略学习:使用CVAE建模一个通用的学生策略,该策略仅依赖于部分观测。CVAE的编码器将部分观测映射到潜在空间,解码器根据潜在变量生成动作。3) 快速自适应:在更难的运动序列上微调学生策略,提升其跟踪性能。
关键创新:UniTracker的关键创新在于使用CVAE来学习运动的全局潜在表示,并将其融入到学生策略中。与传统的MLP策略相比,CVAE能够更好地捕捉运动的全局结构,从而提高泛化能力和鲁棒性。此外,快速自适应模块进一步提升了策略在特定任务上的性能。
关键设计:CVAE的设计是关键。编码器接收部分观测作为输入,解码器生成动作。训练过程中,通过将部分观测先验与完整观测编码器对齐,使CVAE能够学习到与全局意图相关的潜在表示。损失函数包括重构损失、KL散度和对抗损失(用于对齐潜在空间)。快速自适应模块可以使用少量数据进行微调,提升策略在特定运动序列上的性能。
🖼️ 关键图片
📊 实验亮点
UniTracker在仿真和真实环境的Unitree G1人形机器人上进行了评估。实验结果表明,UniTracker在运动多样性、跟踪精度和部署鲁棒性方面均表现出色。与基线方法相比,UniTracker能够更准确地跟踪各种人类动作,并且在真实环境中具有更好的鲁棒性。快速自适应模块能够进一步提升策略在特定运动序列上的性能。
🎯 应用场景
UniTracker具有广泛的应用前景,例如:人形机器人在家庭服务、医疗辅助、工业制造等领域的应用。该技术可以使人形机器人更自然、更准确地模仿人类动作,从而更好地与人类进行交互和协作。此外,该技术还可以应用于虚拟现实和游戏等领域,生成更逼真的人体运动动画。
📄 摘要(原文)
Achieving expressive and generalizable whole-body motion control is essential for deploying humanoid robots in real-world environments. In this work, we propose UniTracker, a three-stage training framework that enables robust and scalable motion tracking across a wide range of human behaviors. In the first stage, we train a teacher policy with privileged observations to generate high-quality actions. In the second stage, we introduce a Conditional Variational Autoencoder (CVAE) to model a universal student policy that can be deployed directly on real hardware. The CVAE structure allows the policy to learn a global latent representation of motion, enhancing generalization to unseen behaviors and addressing the limitations of standard MLP-based policies under partial observations. Unlike pure MLPs that suffer from drift in global attributes like orientation, our CVAE-student policy incorporates global intent during training by aligning a partial-observation prior to the full-observation encoder. In the third stage, we introduce a fast adaptation module that fine-tunes the universal policy on harder motion sequences that are difficult to track directly. This adaptation can be performed both for single sequences and in batch mode, further showcasing the flexibility and scalability of our approach. We evaluate UniTracker in both simulation and real-world settings using a Unitree G1 humanoid, demonstrating strong performance in motion diversity, tracking accuracy, and deployment robustness.