World-Coordinate Human Motion Retargeting via SAM 3D Body

📄 arXiv: 2512.21573v1 📥 PDF

作者: Zhangzheng Tu, Kailun Su, Shaolong Zhu, Yukun Zheng

分类: cs.RO

发布日期: 2025-12-25


💡 一句话要点

提出基于SAM 3D Body的人体运动重定向框架,用于单目视频到人形机器人的运动迁移。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动重定向 单目视频 人形机器人 SAM 3D Body 物理约束

📋 核心要点

  1. 现有方法在单目视频人体运动重定向到机器人时,通常依赖复杂的SLAM流程或时序模型,计算成本高昂。
  2. 论文提出利用SAM 3D Body作为感知骨干,结合Momentum HumanRig表示,并引入物理约束进行运动优化。
  3. 实验表明,该方法在单目视频上实现了稳定的人体运动轨迹重建和可靠的机器人运动重定向。

📝 摘要(中文)

本文提出了一种轻量级的、面向工程应用的框架,用于从单目视频中恢复世界坐标系下的人体运动,并将其重定向到人形机器人。该方法利用SAM 3D Body (3DB) 作为冻结的感知骨干网络,并使用 Momentum HumanRig (MHR) 表示作为机器人友好的中间表示。该方法包括:(i) 锁定每个跟踪对象的身份和骨骼尺度参数,以强制执行时间上一致的骨骼长度;(ii) 通过在低维 MHR 潜在空间中进行高效的滑动窗口优化来平滑每帧预测;(iii) 通过可微的软脚-地面接触模型和接触感知的全局优化来恢复物理上合理的全局根轨迹。最后,使用运动学感知的两阶段逆运动学流程将重建的运动重定向到 Unitree G1 人形机器人。在真实单目视频上的结果表明,该方法具有稳定的世界轨迹和可靠的机器人重定向,表明具有轻量级物理约束的结构化人体表示可以从单目输入产生机器人可用的运动。

🔬 方法详解

问题定义:从单目视频中恢复世界坐标系下的人体运动,并将其重定向到人形机器人。现有方法通常需要复杂的SLAM流程或沉重的时序模型,计算量大,难以工程应用。此外,保证重建运动的物理合理性,例如避免脚穿透地面,也是一个挑战。

核心思路:利用预训练的SAM 3D Body模型提取人体姿态信息,并将其作为先验知识。通过引入轻量级的物理约束,例如骨骼长度一致性和脚-地面接触模型,来提高运动重建的稳定性和物理合理性。使用机器人友好的中间表示(MHR)简化运动重定向过程。

技术框架:整体框架包含三个主要阶段:1) 使用SAM 3D Body进行人体姿态估计;2) 在MHR潜在空间中进行滑动窗口优化,以平滑运动轨迹并保持骨骼长度一致性;3) 使用可微的软脚-地面接触模型和接触感知的全局优化来恢复全局根轨迹。最后,使用两阶段逆运动学流程将运动重定向到Unitree G1机器人。

关键创新:1) 将SAM 3D Body作为冻结的感知骨干网络,避免了从头训练复杂的模型。2) 引入了可微的软脚-地面接触模型,并结合全局优化,实现了物理上合理的运动重建。3) 使用MHR作为机器人友好的中间表示,简化了运动重定向过程。

关键设计:滑动窗口优化中,窗口大小的选择需要在平滑度和实时性之间进行权衡。软脚-地面接触模型使用sigmoid函数来模拟接触力,其参数需要根据具体场景进行调整。两阶段逆运动学流程首先解决全局姿态,然后进行局部调整,以提高重定向的准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在真实单目视频上实现了稳定的人体运动轨迹重建和可靠的机器人运动重定向。与现有方法相比,该方法在保证运动质量的同时,显著降低了计算复杂度,更易于工程应用。定性结果展示了重定向到Unitree G1人形机器人的效果,验证了方法的有效性。

🎯 应用场景

该研究成果可应用于机器人远程操作、虚拟现实/增强现实、游戏开发等领域。例如,用户可以通过单目摄像头捕捉自身运动,并将其实时映射到远程机器人上,实现远程控制和交互。在虚拟现实/增强现实中,可以利用该技术实现更逼真的人体运动模拟,提升用户体验。

📄 摘要(原文)

Recovering world-coordinate human motion from monocular videos with humanoid robot retargeting is significant for embodied intelligence and robotics. To avoid complex SLAM pipelines or heavy temporal models, we propose a lightweight, engineering-oriented framework that leverages SAM 3D Body (3DB) as a frozen perception backbone and uses the Momentum HumanRig (MHR) representation as a robot-friendly intermediate. Our method (i) locks the identity and skeleton-scale parameters of per tracked subject to enforce temporally consistent bone lengths, (ii) smooths per-frame predictions via efficient sliding-window optimization in the low-dimensional MHR latent space, and (iii) recovers physically plausible global root trajectories with a differentiable soft foot-ground contact model and contact-aware global optimization. Finally, we retarget the reconstructed motion to the Unitree G1 humanoid using a kinematics-aware two-stage inverse kinematics pipeline. Results on real monocular videos show that our method has stable world trajectories and reliable robot retargeting, indicating that structured human representations with lightweight physical constraints can yield robot-ready motion from monocular input.