MoPO: Incorporating Motion Prior for Occluded Human Mesh Recovery
作者: Tao Tang, Hong Liu, Xinshun Wang, Wanruo Zhang
分类: cs.CV, cs.AI
发布日期: 2026-05-11
备注: 35 pages
💡 一句话要点
提出MoPO框架:通过引入运动先验解决遮挡场景下的人体网格恢复问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体网格恢复 运动先验 遮挡处理 时空特征融合 逆运动学 计算机视觉
📋 核心要点
- 现有方法在处理人体遮挡时,因空间特征缺失导致姿态估计不准及时间维度上的剧烈抖动。
- 提出MoPO框架,通过时空遮挡检测与运动预测,利用历史姿态序列补全遮挡部位的运动先验。
- 实验证明该方法在遮挡场景下显著提升了人体网格恢复的准确性,并增强了视频序列的时间一致性。
📝 摘要(中文)
尽管近期人体网格恢复(HMR)研究取得了显著进展,但由于遮挡区域空间特征缺失,现有方法在面对遮挡时鲁棒性不足,常导致姿态估计不准确及严重的运动抖动。受人体运动预测领域进展的启发,本文提出MoPO框架,利用姿态序列中蕴含的可靠运动先验来推断遮挡部位。MoPO包含两个核心模块:一是运动去遮挡模块,通过时空遮挡检测器识别关节可见性,并利用轻量级运动预测器基于历史姿态补全遮挡部位;二是运动感知融合与细化模块,将补全的关节序列与图像特征融合以估计人体形状与初始姿态,并利用逆运动学(IK)进一步细化姿态。实验表明,MoPO在遮挡专项及标准基准测试中均达到SOTA水平,显著提升了恢复精度与时间一致性。
🔬 方法详解
问题定义:论文旨在解决单目视频中人体网格恢复(HMR)在遮挡情况下的鲁棒性问题。现有方法过度依赖单帧图像特征,当人体部位被遮挡时,特征提取器无法获取有效信息,导致预测姿态偏离真实值,且在视频序列中表现为明显的抖动。
核心思路:核心思想是“以动补静”。论文认为,相比于不可靠的遮挡图像特征,人体运动的连续性提供了更强的先验信息。通过建模历史姿态序列,可以预测出遮挡部位在当前时刻的合理位置,从而弥补视觉信息的缺失。
技术框架:MoPO主要由两个模块构成:1. 运动去遮挡模块(Motion De-occlusion Module),包含时空遮挡检测器(ST-Occlusion Detector)和轻量级运动预测器;2. 运动感知融合与细化模块(Motion-aware Fusion and Refinement Module),负责将补全的关节信息与图像特征进行多模态融合,并利用逆运动学进行最终姿态优化。
关键创新:最大的创新在于将运动预测作为一种显式的先验引入HMR流程。不同于以往仅依赖图像特征或简单的时序平滑,该方法通过显式补全遮挡关节,为后续的网格回归提供了无遮挡的运动约束。
关键设计:关键设计包括时空遮挡检测器,它能够动态识别哪些关节处于遮挡状态;以及基于逆运动学(IK)的细化步骤,该步骤将预测的关节位置作为强约束,通过优化过程修正回归出的网格参数,确保最终输出的姿态既符合图像观测又满足运动学合理性。
🖼️ 关键图片
📊 实验亮点
MoPO在多个主流数据集(如3DPW、MPI-INF-3DHP)的遮挡场景测试中表现优异。相比于基线模型,该方法在遮挡部位的关节位置误差(MPJPE)显著降低,且在视频序列中展现出极高的时间一致性,有效解决了遮挡导致的姿态跳变问题,达到了当前领域的最优性能。
🎯 应用场景
该技术在自动驾驶行人保护、智能监控、体育运动分析及虚拟现实(VR/AR)动作捕捉领域具有重要价值。在复杂遮挡环境下,它能提供更稳定、平滑的人体运动轨迹,对于需要高精度人体姿态估计的交互式系统和行为分析应用具有显著的实际意义。
📄 摘要(原文)
Although recent studies have made remarkable progress in human mesh recovery, they still exhibit limited robustness to occlusions and often produce inaccurate poses and severe motion jitter due to the insufficient spatial features for occluded body parts. Inspired by the rapid advancements in human motion prediction, we discover that compared to occluded image features, pose sequence inherently contains reliable motion prior for estimating occluded body parts. In this paper, we incorporate Motion Prior for Occluded human mesh recovery, called MoPO. Our MoPO mainly consists of two components: 1) The motion de-occlusion module, where we propose a spatial-temporal occlusion detector to detect joint visibility, and then we propose a lightweight motion predictor to complete the occluded body parts by predicting the most plausible joint positions based on history poses. 2) The motion-aware fusion and refinement module, which fuses the completed joint sequence with image features to estimate human shape and initial human pose. Moreover, the completed joint sequence is further used to refine the final human pose through inverse kinematics, which provides the occlusion-free motion prior for regressing human poses. Extensive experiments demonstrate that MoPO achieves state-of-the-art performance on both occlusion-specific and standard benchmarks, significantly enhancing the accuracy and temporal consistency of occluded human mesh recovery. Our code and demo can be found in the supplementary material.