Make Tracking Easy: Neural Motion Retargeting for Humanoid Whole-body Control

📄 arXiv: 2603.22201v1 📥 PDF

作者: Qingrui Zhao, Kaiyue Yang, Xiyu Wang, Shiqi Zhao, Yi Lu, Xinfang Zhang, Wei Yin, Qiu Shen, Xiao-Xiao Long, Xun Cao

分类: cs.RO

发布日期: 2026-03-23

备注: Report, 12 pages, 5 figures, 4 tables


💡 一句话要点

提出NMR框架,通过神经运动重定向实现人型机器人全身控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting)

关键词: 人型机器人 运动重定向 全身控制 强化学习 神经网络

📋 核心要点

  1. 传统基于优化的运动重定向方法易陷入局部最优,导致关节跳跃和自碰撞等问题。
  2. NMR框架将运动重定向问题转化为学习数据分布,通过神经方法学习动态感知的运动转换。
  3. 实验表明,NMR能有效消除关节跳跃,减少自碰撞,并加速全身控制策略的收敛。

📝 摘要(中文)

人型机器人需要多样化的运动技能才能融入复杂环境,但弥合来自人类数据的运动学和动力学差异仍然是一个主要瓶颈。通过Hessian分析表明,传统的基于优化的重定向方法本质上是非凸的,容易陷入局部最优,导致关节跳跃和自穿透等物理伪影。为了解决这个问题,我们将目标问题重新定义为学习数据分布,而不是优化最优解,并提出了NMR,一个神经运动重定向框架,将静态几何映射转换为动态感知的学习过程。我们首先提出了聚类专家物理细化(CEPR),一个分层数据管道,利用基于VAE的运动聚类将异构运动分组为潜在的运动基元。这种策略显著降低了大规模并行强化学习专家的计算开销,这些专家将嘈杂的人类演示投影并修复到机器人可行的运动流形上。由此产生的高保真数据监督一个非自回归的CNN-Transformer架构,该架构推理全局时间上下文以抑制重建噪声并绕过几何陷阱。在Unitree G1人型机器人上进行的各种动态任务(如武术、舞蹈)的实验表明,与最先进的基线相比,NMR消除了关节跳跃并显著减少了自碰撞。此外,NMR生成的参考加速了下游全身控制策略的收敛,为弥合人机差异建立了一条可扩展的路径。

🔬 方法详解

问题定义:论文旨在解决人型机器人模仿人类运动时,由于运动学和动力学差异导致的重定向问题。现有基于优化的方法容易陷入局部最优,产生不自然的运动伪影,如关节跳跃和自穿透,限制了机器人运动技能的泛化能力。

核心思路:论文的核心思路是将运动重定向问题从优化问题转化为数据分布学习问题。通过学习人类运动数据中的潜在模式,并将其映射到机器人可执行的运动空间,避免了直接优化带来的局部最优问题。这种方法允许模型学习更鲁棒和自然的运动转换。

技术框架:NMR框架包含两个主要阶段:首先是聚类专家物理细化(CEPR),利用VAE进行运动聚类,将异构运动分解为多个运动基元,并使用强化学习专家对每个基元进行物理约束优化,生成高质量的训练数据。然后,使用一个非自回归的CNN-Transformer架构,学习从人类运动到机器人运动的映射关系,该网络能够利用全局时间上下文来抑制噪声和避免几何陷阱。

关键创新:论文的关键创新在于将运动重定向问题转化为数据驱动的学习问题,并提出了CEPR数据生成流程和CNN-Transformer架构。CEPR通过运动聚类和强化学习细化,生成了高质量的训练数据,克服了传统方法对初始状态的敏感性。CNN-Transformer架构能够捕捉全局时间依赖性,从而生成更平滑和自然的运动。

关键设计:CEPR阶段,VAE用于将运动数据聚类成不同的运动基元,每个基元对应一个强化学习专家,用于生成符合机器人物理约束的运动数据。CNN-Transformer架构使用非自回归的方式进行运动生成,避免了自回归模型中的误差累积问题。损失函数包括运动重建损失和正则化项,用于保证生成运动的质量和平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与最先进的基线方法相比,NMR框架能够显著减少关节跳跃和自碰撞现象。在Unitree G1人型机器人上进行的武术和舞蹈等动态任务的实验中,NMR生成的运动更加平滑和自然。此外,NMR生成的参考运动能够加速下游全身控制策略的收敛,提高了机器人的运动控制性能。

🎯 应用场景

该研究成果可应用于各种人型机器人的运动控制,例如服务机器人、工业机器人和娱乐机器人。通过学习人类运动数据,机器人可以模仿人类的动作,完成各种复杂的任务,例如舞蹈、武术和物体操作。该技术还可以用于虚拟现实和游戏领域,生成更逼真和自然的虚拟角色动画。

📄 摘要(原文)

Humanoid robots require diverse motor skills to integrate into complex environments, but bridging the kinematic and dynamic embodiment gap from human data remains a major bottleneck. We demonstrate through Hessian analysis that traditional optimization-based retargeting is inherently non-convex and prone to local optima, leading to physical artifacts like joint jumps and self-penetration. To address this, we reformulate the targeting problem as learning data distribution rather than optimizing optimal solutions, where we propose NMR, a Neural Motion Retargeting framework that transforms static geometric mapping into a dynamics-aware learned process. We first propose Clustered-Expert Physics Refinement (CEPR), a hierarchical data pipeline that leverages VAE-based motion clustering to group heterogeneous movements into latent motifs. This strategy significantly reduces the computational overhead of massively parallel reinforcement learning experts, which project and repair noisy human demonstrations onto the robot's feasible motion manifold. The resulting high-fidelity data supervises a non-autoregressive CNN-Transformer architecture that reasons over global temporal context to suppress reconstruction noise and bypass geometric traps. Experiments on the Unitree G1 humanoid across diverse dynamic tasks (e.g., martial arts, dancing) show that NMR eliminates joint jumps and significantly reduces self-collisions compared to state-of-the-art baselines. Furthermore, NMR-generated references accelerate the convergence of downstream whole-body control policies, establishing a scalable path for bridging the human-robot embodiment gap.