MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons

📄 arXiv: 2604.28130v1 📥 PDF

作者: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang

分类: cs.CV

发布日期: 2026-04-30

备注: Project page: https://animotionlab.github.io/MoCapAnythingV2/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MoCapAnything V2:提出端到端运动捕捉框架,适用于任意骨骼动画生成。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 运动捕捉 单目视频 端到端学习 姿势估计 逆运动学

📋 核心要点

  1. 现有单目视频运动捕捉方法依赖非端到端流程,逆运动学环节存在固有局限性,难以优化。
  2. MoCapAnything V2提出端到端框架,通过引入参考姿势-旋转对,解决姿势到旋转映射的模糊性。
  3. 实验表明,该方法显著降低了旋转误差,并在推理速度上优于传统方法,尤其是在未知骨骼上。

📝 摘要(中文)

本文提出了一种端到端的运动捕捉框架MoCapAnything V2,用于从单目视频中捕捉任意骨骼的运动。现有方法通常采用分解的流程,即先通过Video-to-Pose网络预测关节位置,然后使用解析逆运动学(IK)恢复关节旋转。这种设计存在固有局限性,因为关节位置不能完全确定旋转,并且非可微的IK阶段阻止了系统适应噪声预测或优化最终动画目标。MoCapAnything V2实现了Video-to-Pose和Pose-to-Rotation两个阶段的可学习和联合优化。该模型引入了来自目标资产的参考姿势-旋转对,以及静止姿势,不仅锚定了映射,还定义了底层的旋转坐标系,从而解决了姿势到旋转映射中的模糊性。此外,该模型直接从视频预测关节位置,无需中间网格表示,提高了鲁棒性和效率。两个阶段共享一个骨骼感知的全局-局部图引导多头注意力(GL-GMHA)模块,用于关节级别的局部推理和全局协调。实验表明,该方法将旋转误差从约17度降低到约10度,在未见过的骨骼上降低到6.54度,同时实现了比基于网格的流程快约20倍的推理速度。

🔬 方法详解

问题定义:现有基于单目视频的任意骨骼运动捕捉方法通常采用两阶段流程:先预测关节位置,再通过逆运动学(IK)计算关节旋转。这种方法的痛点在于:1)关节位置信息不足以完全确定旋转,存在自由度;2)IK过程不可微,导致整个系统无法端到端优化,难以适应噪声或针对最终动画目标进行优化。

核心思路:论文的核心思路是构建一个完全端到端的运动捕捉框架,将关节位置预测和旋转估计联合优化。为了解决姿势到旋转映射的模糊性,引入了参考姿势-旋转对,该参考姿势与静止姿势一起,定义了旋转坐标系,从而将旋转预测转化为一个良好约束的条件问题。

技术框架:MoCapAnything V2的整体框架包含两个主要阶段:Video-to-Pose和Pose-to-Rotation。Video-to-Pose阶段直接从视频帧预测关节位置,避免了中间网格表示。Pose-to-Rotation阶段则基于预测的关节位置和参考姿势-旋转对,预测关节旋转。这两个阶段共享一个骨骼感知的全局-局部图引导多头注意力(GL-GMHA)模块,用于进行关节级别的局部推理和全局协调。

关键创新:该论文最重要的技术创新在于提出了端到端的运动捕捉框架,并引入了参考姿势-旋转对来解决姿势到旋转映射的模糊性。与现有方法相比,该方法无需中间网格表示,可以直接从视频预测关节位置,并且可以进行端到端优化。

关键设计:GL-GMHA模块是关键设计之一,它允许模型同时考虑关节的局部信息和全局上下文。损失函数的设计也至关重要,需要同时优化关节位置和旋转的预测精度。参考姿势-旋转对的选择也会影响最终的运动捕捉效果,需要根据目标骨骼进行选择。

📊 实验亮点

实验结果表明,MoCapAnything V2在Truebones Zoo和Objaverse数据集上显著降低了旋转误差,从约17度降低到约10度,在未见过的骨骼上降低到6.54度。同时,该方法实现了比基于网格的流程快约20倍的推理速度,大大提高了运动捕捉的效率。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏开发、动画制作等领域。通过单目视频即可实现对任意骨骼的运动捕捉,降低了运动捕捉的成本和门槛,使得更多用户可以方便地创建和编辑动画内容。未来,该技术有望应用于人机交互、机器人控制等领域。

📄 摘要(原文)

Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/