Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture
作者: Tom Wehrbein, Bodo Rosenhahn
分类: cs.CV
发布日期: 2026-03-10
备注: Accepted at the 2026 International Conference on 3D Vision (3DV)
💡 一句话要点
FootMR:通过2D关键点提升单目人体运动捕捉中的3D足部运动重建
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动捕捉 足部运动重建 2D-3D提升 运动捕捉数据 Transformer网络
📋 核心要点
- 现有方法在足部运动捕捉方面存在不足,主要原因是训练数据标注不准确和足部运动多样性不足。
- FootMR通过将2D足部关键点提升为3D,并结合膝盖和足部运动上下文,优化足部运动重建。
- 实验结果表明,FootMR在多个数据集上优于现有方法,显著降低了踝关节角度误差。
📝 摘要(中文)
当前最优方法能够从真实视频中恢复准确的整体3D人体运动,但通常无法捕捉到精细的关节运动,尤其是在足部。这对于步态分析和动画等应用至关重要。这种局限性源于训练数据集中的足部标注不准确以及足部运动多样性有限。我们提出了FootMR,一种足部运动优化方法,通过将2D足部关键点序列提升到3D来优化现有的人体恢复模型估计的足部运动。通过避免直接的图像输入,FootMR规避了不准确的图像-3D标注对,并可以利用大规模的运动捕捉数据。为了解决2D到3D提升的模糊性,FootMR将膝盖和足部运动作为上下文,并且仅预测残差足部运动。通过以全局而非父相对旋转表示关节,并应用广泛的数据增强,进一步提高了对极端足部姿势的泛化能力。为了支持足部运动重建的评估,我们引入了MOOF,一个包含复杂足部运动的2D数据集。在MOOF、MOYO和RICH上的实验表明,FootMR优于当前最优方法,在MOYO上,踝关节角度误差比最佳的基于视频的方法降低了高达30%。
🔬 方法详解
问题定义:现有基于视频的人体运动捕捉方法在足部运动重建方面表现不佳,无法准确捕捉精细的足部动作。主要痛点在于训练数据中足部标注的质量不高,且缺乏足够多样的足部运动数据,导致模型泛化能力不足。
核心思路:FootMR的核心思路是避免直接从图像回归3D足部姿态,而是利用2D足部关键点序列,将其提升到3D空间,并结合膝盖和足部运动的上下文信息,预测残差足部运动。这样可以规避不准确的图像-3D标注对,并利用大规模的运动捕捉数据进行训练。
技术框架:FootMR的整体框架包含以下几个主要阶段:1) 使用现有的2D人体姿态估计器提取视频中的2D足部关键点序列。2) 将2D足部关键点序列输入到FootMR模型中。3) FootMR模型利用膝盖和足部运动上下文信息,预测残差3D足部运动。4) 将残差3D足部运动与初始估计的3D足部运动相结合,得到最终的优化后的3D足部运动。
关键创新:FootMR的关键创新点在于:1) 利用2D足部关键点序列作为输入,避免了直接从图像回归3D姿态,从而规避了不准确的图像-3D标注对。2) 将膝盖和足部运动作为上下文信息,解决了2D到3D提升的模糊性问题。3) 使用全局旋转表示关节,提高了对极端足部姿势的泛化能力。
关键设计:FootMR模型使用Transformer网络结构,将2D足部关键点序列和上下文信息作为输入,预测残差3D足部运动。损失函数包括3D关节位置误差和旋转误差。为了提高泛化能力,采用了大量的数据增强技术,例如随机旋转、缩放和平移。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FootMR在MOOF、MOYO和RICH数据集上均取得了显著的性能提升。在MOYO数据集上,FootMR的踝关节角度误差比最佳的基于视频的方法降低了高达30%。此外,作者还提出了一个新的足部运动数据集MOOF,为足部运动重建的研究提供了新的benchmark。
🎯 应用场景
该研究成果可广泛应用于步态分析、运动康复、虚拟现实、游戏动画等领域。精确的足部运动重建能够为步态分析提供更准确的数据,帮助医生诊断和治疗足部疾病。在虚拟现实和游戏动画中,更真实的足部运动可以提升用户体验和沉浸感。此外,该技术还可以应用于机器人控制,使机器人能够更自然地行走和运动。
📄 摘要(原文)
State-of-the-art methods can recover accurate overall 3D human body motion from in-the-wild videos. However, they often fail to capture fine-grained articulations, especially in the feet, which are critical for applications such as gait analysis and animation. This limitation results from training datasets with inaccurate foot annotations and limited foot motion diversity. We address this gap with FootMR, a Foot Motion Refinement method that refines foot motion estimated by an existing human recovery model through lifting 2D foot keypoint sequences to 3D. By avoiding direct image input, FootMR circumvents inaccurate image-3D annotation pairs and can instead leverage large-scale motion capture data. To resolve ambiguities of 2D-to-3D lifting, FootMR incorporates knee and foot motion as context and predicts only residual foot motion. Generalization to extreme foot poses is further improved by representing joints in global rather than parent-relative rotations and applying extensive data augmentation. To support evaluation of foot motion reconstruction, we introduce MOOF, a 2D dataset of complex foot movements. Experiments on MOOF, MOYO, and RICH show that FootMR outperforms state-of-the-art methods, reducing ankle joint angle error on MOYO by up to 30% over the best video-based approach.