MonoMSK: Monocular 3D Musculoskeletal Dynamics Estimation

📄 arXiv: 2511.19326v1 📥 PDF

作者: Farnoosh Koleini, Hongfei Xue, Ahmed Helmy, Pu Wang

分类: cs.CV

发布日期: 2025-11-24


💡 一句话要点

MonoMSK:单目视频中基于物理的3D人体骨骼肌肉动力学估计

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction & Matching)

关键词: 单目3D人体运动估计 肌肉骨骼动力学 逆动力学 正向动力学 物理模拟 Transformer网络

📋 核心要点

  1. 现有单目人体运动捕捉方法依赖简化模型,忽略物理规律,导致生物力学真实性不足,限制了其在运动分析等领域的应用。
  2. MonoMSK结合数据驱动学习和物理模拟,利用精确的肌肉骨骼模型,通过逆动力学和正向动力学循环,实现运动学和动力学的联合估计。
  3. 实验表明,MonoMSK在运动学精度上超越现有方法,并首次实现了单目视频的精确动力学估计,提升了人体运动分析的准确性。

📝 摘要(中文)

重建生物力学上逼真的3D人体运动(包括运动学和动力学,即运动和力)是一个关键挑战。虽然基于标记的系统受限于实验室且速度慢,但流行的单目方法使用过度简化、解剖学上不准确的模型(例如SMPL)并忽略物理规律,从根本上限制了其生物力学保真度。本文提出了MonoMSK,一个混合框架,它桥接了数据驱动学习和基于物理的模拟,用于从单目视频中估计生物力学上逼真的3D人体运动。MonoMSK通过解剖学上精确的肌肉骨骼模型联合恢复运动学(运动)和动力学(力和扭矩)。通过将基于Transformer的逆动力学与基于ODE模拟的可微正向运动学和动力学层相结合,MonoMSK建立了一个受物理规律约束的逆向-正向循环,从而加强了生物力学因果关系和物理合理性。一种新颖的正向-逆向一致性损失进一步使运动重建与底层动力学推理对齐。在BML-MoVi、BEDLAM和OpenCap上的实验表明,MonoMSK在运动学精度方面显著优于最先进的方法,同时首次实现了精确的单目动力学估计。

🔬 方法详解

问题定义:现有单目3D人体运动估计方法通常使用简化的解剖模型(如SMPL),忽略了人体运动的物理规律,导致估计的运动在生物力学上不真实,无法准确反映人体内部的力和力矩。这限制了其在运动分析、康复医学等领域的应用。因此,需要一种能够从单目视频中估计生物力学上逼真的人体运动,包括运动学(运动)和动力学(力和力矩)的方法。

核心思路:MonoMSK的核心思路是将数据驱动的学习方法与基于物理的模拟相结合,构建一个混合框架。该框架利用解剖学上精确的肌肉骨骼模型,通过逆动力学估计力和力矩,然后通过正向动力学模拟运动,形成一个闭环反馈系统。通过这种方式,MonoMSK能够同时估计运动学和动力学,并保证估计结果的生物力学合理性。

技术框架:MonoMSK的整体框架包含以下几个主要模块:1) 基于Transformer的逆动力学模块:从单目视频中估计关节力和力矩。2) 可微正向运动学模块:根据关节角度计算人体姿态。3) 可微正向动力学模块:基于ODE(常微分方程)模拟,根据力和力矩计算人体运动。4) 正向-逆向一致性损失:用于约束正向动力学模拟结果与逆动力学估计结果的一致性。整个框架通过一个逆向-正向循环进行优化,从而实现运动学和动力学的联合估计。

关键创新:MonoMSK的关键创新在于:1) 提出了一个混合框架,将数据驱动学习和基于物理的模拟相结合,从而能够同时估计运动学和动力学。2) 利用解剖学上精确的肌肉骨骼模型,保证了估计结果的生物力学真实性。3) 引入了正向-逆向一致性损失,进一步约束了估计结果的物理合理性。4) 首次实现了从单目视频中进行精确的动力学估计。

关键设计:MonoMSK的关键设计包括:1) 使用Transformer网络进行逆动力学估计,能够有效地捕捉人体运动的时序信息。2) 使用可微的正向运动学和动力学模块,使得整个框架可以进行端到端的优化。3) 设计了正向-逆向一致性损失,鼓励正向动力学模拟结果与逆动力学估计结果保持一致,从而提高估计的准确性。4) 使用ODE求解器进行正向动力学模拟,能够准确地模拟人体运动的物理过程。

📊 实验亮点

MonoMSK在BML-MoVi、BEDLAM和OpenCap数据集上进行了评估,实验结果表明,MonoMSK在运动学精度方面显著优于现有方法,并且首次实现了单目视频的精确动力学估计。具体而言,MonoMSK在运动学指标上取得了X%的提升(具体数值未知),并且能够准确地估计关节力和力矩,为人体运动分析提供了新的工具。

🎯 应用场景

MonoMSK在运动分析、康复医学、虚拟现实和游戏等领域具有广泛的应用前景。它可以用于分析运动员的运动姿势,评估康复患者的运动能力,为虚拟角色创建逼真的运动动画,以及开发更具沉浸感的游戏体验。该研究有助于更深入地理解人体运动的生物力学机制,并为相关领域的发展提供技术支持。

📄 摘要(原文)

Reconstructing biomechanically realistic 3D human motion - recovering both kinematics (motion) and kinetics (forces) - is a critical challenge. While marker-based systems are lab-bound and slow, popular monocular methods use oversimplified, anatomically inaccurate models (e.g., SMPL) and ignore physics, fundamentally limiting their biomechanical fidelity. In this work, we introduce MonoMSK, a hybrid framework that bridges data-driven learning and physics-based simulation for biomechanically realistic 3D human motion estimation from monocular video. MonoMSK jointly recovers both kinematics (motions) and kinetics (forces and torques) through an anatomically accurate musculoskeletal model. By integrating transformer-based inverse dynamics with differentiable forward kinematics and dynamics layers governed by ODE-based simulation, MonoMSK establishes a physics-regulated inverse-forward loop that enforces biomechanical causality and physical plausibility. A novel forward-inverse consistency loss further aligns motion reconstruction with the underlying kinetic reasoning. Experiments on BML-MoVi, BEDLAM, and OpenCap show that MonoMSK significantly outperforms state-of-the-art methods in kinematic accuracy, while for the first time enabling precise monocular kinetics estimation.