End-to-End Motion Capture from Rigid Body Markers with Geodesic Loss

📄 arXiv: 2511.16418v1 📥 PDF

作者: Hai Lan, Zongyan Li, Jianmin Hu, Jialing Yang, Houde Dai

分类: cs.CV, cs.HC

发布日期: 2025-11-20

备注: The source code is available in : https://github.com/wer010/GLRBM-Mocap


💡 一句话要点

提出基于刚体标记和测地线损失的端到端人体运动捕捉方法

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱六:视频提取与匹配 (Video Extraction & Matching)

关键词: 运动捕捉 刚体标记 深度学习 SMPL模型 测地线损失

📋 核心要点

  1. 传统光学运动捕捉依赖密集标记点配置,准备耗时且标记点易混淆,限制了其可扩展性。
  2. 提出使用刚体标记(RBM)作为基本单元,提供明确的6自由度数据,简化设置。
  3. 开发基于深度学习的端到端模型,结合测地线损失直接回归SMPL参数,计算效率高且精度高。

📝 摘要(中文)

本文提出了一种新的运动捕捉(MoCap)基本单元——刚体标记(RBM),它提供明确的6自由度数据,并显著简化设置。针对传统基于标记点的光学运动捕捉系统准备耗时、标记点识别易混淆等问题,本文开发了一种基于深度学习的回归模型,该模型在测地线损失下直接估计SMPL参数。这种端到端方法在性能上与基于优化的方法相匹配,但计算量减少了一个数量级以上。该模型在从AMASS数据集合成的数据上进行训练,在人体姿态估计方面达到了最先进的精度。使用Vicon光学跟踪系统捕获的真实世界数据进一步证明了该方法在实际中的可行性。总体而言,结果表明,将稀疏的6自由度RBM与流形感知的测地线损失相结合,可以为图形、虚拟现实和生物力学中的实时MoCap提供实用且高保真的解决方案。

🔬 方法详解

问题定义:传统基于标记点的光学运动捕捉系统需要密集的标记点配置,导致准备工作耗时,且在运动过程中容易出现标记点识别的歧义,这严重限制了其在实际应用中的可扩展性。现有的优化方法虽然精度较高,但计算成本高昂,难以满足实时性需求。

核心思路:本文的核心思路是利用刚体标记(RBM)作为运动捕捉的基本单元,每个RBM提供明确的6自由度数据,从而减少了对密集标记点配置的依赖,简化了设置过程。同时,采用深度学习方法直接从RBM数据回归SMPL参数,避免了传统优化方法的迭代过程,提高了计算效率。

技术框架:该方法采用端到端的深度学习框架。输入是来自RBM的6自由度数据,输出是SMPL模型参数。整个流程包括数据预处理、神经网络模型和损失函数设计三个主要阶段。数据预处理阶段将RBM数据转换为适合神经网络输入的格式。神经网络模型负责从RBM数据中提取特征并回归SMPL参数。损失函数用于衡量预测的SMPL参数与真实值之间的差距,并指导网络训练。

关键创新:该方法最重要的技术创新点在于将刚体标记(RBM)引入运动捕捉领域,并结合流形感知的测地线损失函数。RBM的使用减少了对密集标记点配置的依赖,简化了设置过程。测地线损失函数能够更好地约束SMPL参数的解空间,提高姿态估计的精度。与现有方法的本质区别在于,该方法采用端到端的深度学习框架,避免了传统优化方法的迭代过程,提高了计算效率。

关键设计:该方法使用从AMASS数据集合成的数据进行训练。损失函数采用测地线损失,以更好地约束SMPL参数的解空间。具体的网络结构未知,但可以推断其为一个回归网络,用于将RBM数据映射到SMPL参数空间。RBM的具体配置(数量、位置等)也是一个重要的设计参数,需要在实际应用中进行调整。

📊 实验亮点

该方法在合成数据集上进行了训练,并在真实世界数据上进行了验证。实验结果表明,该方法在人体姿态估计方面达到了最先进的精度,同时计算量比基于优化的方法减少了一个数量级以上。这表明该方法在实际应用中具有很高的可行性和潜力。

🎯 应用场景

该研究成果可广泛应用于图形学、虚拟现实、生物力学等领域。在图形学中,可用于实时人体动画的生成。在虚拟现实中,可用于用户动作的实时捕捉和交互。在生物力学中,可用于人体运动分析和康复训练。该方法具有设置简单、精度高、计算效率高等优点,有望推动运动捕捉技术在各个领域的普及和应用。

📄 摘要(原文)

Marker-based optical motion capture (MoCap), while long regarded as the gold standard for accuracy, faces practical challenges, such as time-consuming preparation and marker identification ambiguity, due to its reliance on dense marker configurations, which fundamentally limit its scalability. To address this, we introduce a novel fundamental unit for MoCap, the Rigid Body Marker (RBM), which provides unambiguous 6-DoF data and drastically simplifies setup. Leveraging this new data modality, we develop a deep-learning-based regression model that directly estimates SMPL parameters under a geodesic loss. This end-to-end approach matches the performance of optimization-based methods while requiring over an order of magnitude less computation. Trained on synthesized data from the AMASS dataset, our end-to-end model achieves state-of-the-art accuracy in body pose estimation. Real-world data captured using a Vicon optical tracking system further demonstrates the practical viability of our approach. Overall, the results show that combining sparse 6-DoF RBM with a manifold-aware geodesic loss yields a practical and high-fidelity solution for real-time MoCap in graphics, virtual reality, and biomechanics.