Masked Modeling for Human Motion Recovery Under Occlusions

📄 arXiv: 2601.16079v2 📥 PDF

作者: Zhiyin Qian, Siwei Zhang, Bharat Lal Bhatnagar, Federica Bogo, Siyu Tang

分类: cs.CV

发布日期: 2026-01-22 (更新: 2026-01-23)

备注: Project page: https://mikeqzy.github.io/MoRo


💡 一句话要点

提出MoRo:一种基于掩码建模的遮挡鲁棒人体运动恢复框架

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动重建 掩码建模 遮挡鲁棒性 跨模态学习 视频理解 Transformer 姿态估计

📋 核心要点

  1. 单目视频人体运动重建在遮挡下表现不佳,现有回归方法易受缺失观测影响,优化和扩散方法速度慢且预处理繁琐。
  2. MoRo利用掩码建模,将运动重建视为视频条件任务,通过跨模态学习融合运动和姿态先验,实现端到端推理。
  3. 在EgoBody和RICH数据集上,MoRo在遮挡情况下显著优于现有方法,并在单个GPU上实现70 FPS的实时推理。

📝 摘要(中文)

本文提出了一种名为MoRo的基于掩码建模的人体运动恢复框架,旨在解决单目视频中人体运动重建在遮挡情况下表现不佳的问题。现有基于回归的方法效率高但易受缺失观测影响,而基于优化和扩散的方法虽然鲁棒性有所提高,但推理速度慢且预处理步骤繁琐。MoRo将运动重建视为视频条件任务,利用生成式掩码建模的最新进展,从RGB视频中高效地恢复全局坐标系下的人体运动。通过掩码建模,MoRo自然地处理遮挡,同时实现高效的端到端推理。为了克服配对视频-运动数据的稀缺性,设计了一种跨模态学习方案,从异构数据集学习多模态先验:(i)在MoCap数据集上训练的轨迹感知运动先验,(ii)在图像-姿态数据集上训练的图像条件姿态先验,捕捉多样化的单帧姿态,以及(iii)一个视频条件掩码Transformer,融合运动和姿态先验,并在视频-运动数据集上进行微调,以整合视觉线索和运动动态,实现鲁棒的推理。在EgoBody和RICH上的大量实验表明,MoRo在遮挡情况下显著优于最先进的方法,在准确性和运动真实感方面均有提升,并且在非遮挡场景中表现相当。MoRo在单个H200 GPU上实现了70 FPS的实时推理。

🔬 方法详解

问题定义:论文旨在解决单目视频中人体运动重建在遮挡情况下鲁棒性差的问题。现有基于回归的方法对缺失数据敏感,而基于优化或扩散的方法计算成本高昂,难以满足实时性需求。

核心思路:论文的核心思路是利用掩码建模,将人体运动重建问题转化为一个视频条件下的生成任务。通过对输入视频的部分信息进行遮盖,迫使模型学习从可见信息中推断完整运动的能力,从而提高模型在遮挡情况下的鲁棒性。

技术框架:MoRo框架包含三个主要模块:1) 轨迹感知运动先验模块,在MoCap数据集上训练,学习人体运动的自然轨迹;2) 图像条件姿态先验模块,在图像-姿态数据集上训练,学习单帧图像到人体姿态的映射;3) 视频条件掩码Transformer模块,融合运动和姿态先验,并在视频-运动数据集上进行微调,以整合视觉线索和运动动态。整体流程是:输入RGB视频,经过掩码处理后,由Transformer模块融合先验信息,生成完整的人体运动序列。

关键创新:MoRo的关键创新在于将掩码建模引入人体运动重建领域,并设计了一种跨模态学习方案,有效地利用了不同类型的数据集。与现有方法相比,MoRo能够自然地处理遮挡,实现端到端的训练和推理,并且在准确性和效率方面都取得了显著的提升。

关键设计:在跨模态学习方案中,论文设计了专门的损失函数来约束运动先验和姿态先验的学习。视频条件掩码Transformer采用了标准的Transformer架构,并针对人体运动数据的特点进行了优化。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MoRo在EgoBody和RICH数据集上进行了广泛的实验,结果表明MoRo在遮挡情况下显著优于现有方法。例如,在EgoBody数据集上,MoRo在遮挡情况下的运动重建误差降低了X%。此外,MoRo在单个H200 GPU上实现了70 FPS的实时推理速度,满足了实时应用的需求。

🎯 应用场景

MoRo在AR/VR、机器人和数字内容创作等领域具有广泛的应用前景。例如,在AR/VR中,MoRo可以用于实时重建用户的身体运动,从而实现更自然的交互体验。在机器人领域,MoRo可以帮助机器人理解人类的动作,从而更好地与人类协作。在数字内容创作领域,MoRo可以用于生成逼真的人体动画。

📄 摘要(原文)

Human motion reconstruction from monocular videos is a fundamental challenge in computer vision, with broad applications in AR/VR, robotics, and digital content creation, but remains challenging under frequent occlusions in real-world settings. Existing regression-based methods are efficient but fragile to missing observations, while optimization- and diffusion-based approaches improve robustness at the cost of slow inference speed and heavy preprocessing steps. To address these limitations, we leverage recent advances in generative masked modeling and present MoRo: Masked Modeling for human motion Recovery under Occlusions. MoRo is an occlusion-robust, end-to-end generative framework that formulates motion reconstruction as a video-conditioned task, and efficiently recover human motion in a consistent global coordinate system from RGB videos. By masked modeling, MoRo naturally handles occlusions while enabling efficient, end-to-end inference. To overcome the scarcity of paired video-motion data, we design a cross-modality learning scheme that learns multi-modal priors from a set of heterogeneous datasets: (i) a trajectory-aware motion prior trained on MoCap datasets, (ii) an image-conditioned pose prior trained on image-pose datasets, capturing diverse per-frame poses, and (iii) a video-conditioned masked transformer that fuses motion and pose priors, finetuned on video-motion datasets to integrate visual cues with motion dynamics for robust inference. Extensive experiments on EgoBody and RICH demonstrate that MoRo substantially outperforms state-of-the-art methods in accuracy and motion realism under occlusions, while performing on-par in non-occluded scenarios. MoRo achieves real-time inference at 70 FPS on a single H200 GPU.