FactorizedHMR: A Hybrid Framework for Video Human Mesh Recovery

作者: Patrick Kwon, Chen Chen

分类: cs.CV, cs.AI

发布日期: 2026-05-14

💡 一句话要点

FactorizedHMR：用于视频人体网格重建的混合框架，提升遮挡和弱深度下的鲁棒性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 人体网格重建 3D人体姿态估计 视频人体建模 概率流匹配 遮挡处理 合成数据 几何感知 特征感知

📋 核心要点

现有HMR方法在遮挡或弱深度信息下存在模糊性，导致重建结果不稳定，尤其是在远端关节处。
FactorizedHMR将人体分为稳定的躯干-根部和易模糊的远端关节，分别使用确定性回归和概率流匹配进行处理。
通过合成数据增强、几何感知监督和特征感知引导，FactorizedHMR在遮挡和漂移敏感场景下表现出更强的鲁棒性。

📝 摘要（中文）

人体网格重建(HMR)本质上是模糊的：在遮挡或弱深度线索下，多个3D人体可以解释相同的图像证据。这种模糊性在身体各处并不均匀，躯干姿势和根部结构通常受到较好的约束，而手臂和腿等远端关节则更不确定。基于此，我们提出了FactorizedHMR，这是一个两阶段框架，区别对待这两个区域。确定性回归模块首先恢复一个稳定的躯干-根部锚点，然后概率流匹配模块完成剩余的非躯干关节。为了使这种补全可靠，我们结合了复合目标表示、几何感知监督和特征感知无分类器引导，在改进易模糊关节的单参考恢复的同时，保留躯干-根部锚点。我们还引入了一个合成数据管道，在不同的视角下提供配对的图像-相机-运动监督。在相机空间和世界空间基准测试中，FactorizedHMR与强大的基线相比仍具有竞争力，在遮挡严重的恢复和对漂移敏感的世界空间指标方面有明显的优势。

🔬 方法详解

问题定义：人体网格重建(HMR)旨在从图像或视频中恢复3D人体姿态和形状。然而，在存在遮挡、光照不足或视角不佳等情况下，HMR面临着固有的模糊性，导致重建结果不准确或不稳定。特别是，身体的远端关节（如手臂和腿）更容易受到这种模糊性的影响，而躯干和根部通常相对稳定。现有方法难以有效处理这种非均匀的模糊性，导致整体重建性能下降。

核心思路：FactorizedHMR的核心思想是将人体分解为两个部分：一个稳定的躯干-根部锚点和一个易模糊的非躯干关节部分。首先，使用确定性回归模块来准确估计躯干-根部姿态，作为整体人体姿态的稳定参考。然后，利用概率流匹配模块来完成剩余的非躯干关节的重建，该模块能够更好地处理模糊性和不确定性。这种分解处理方式能够充分利用身体不同部位的特性，提高整体重建的准确性和鲁棒性。

技术框架：FactorizedHMR框架包含两个主要阶段：1) 躯干-根部锚点回归：使用一个确定性的回归模块，例如基于神经网络的回归器，从输入图像中直接预测躯干和根部的3D姿态和位置。这个模块的目标是尽可能准确和稳定地估计躯干-根部，作为后续关节补全的参考。2) 非躯干关节补全：使用一个概率流匹配模块，基于第一阶段估计的躯干-根部锚点，完成剩余非躯干关节的3D姿态估计。该模块采用概率模型来表示关节姿态的不确定性，并通过流匹配算法来优化关节姿态，使其与图像证据和躯干-根部锚点保持一致。

关键创新：FactorizedHMR的关键创新在于其分解处理人体不同部位的方式，以及概率流匹配模块的应用。通过将人体分解为稳定的躯干-根部和易模糊的非躯干关节，FactorizedHMR能够更有效地处理HMR中的模糊性。概率流匹配模块能够更好地建模关节姿态的不确定性，并通过优化算法来找到最可能的关节姿态。此外，论文还提出了几何感知监督和特征感知无分类器引导，进一步提高了关节补全的准确性和鲁棒性。

关键设计：为了提高概率流匹配模块的性能，论文采用了以下关键设计：1) 复合目标表示：将关节姿态表示为多个目标的组合，例如关节角度、3D位置等，从而更全面地描述关节姿态。2) 几何感知监督：利用人体几何约束信息来监督关节姿态的估计，例如关节长度、关节角度范围等。3) 特征感知无分类器引导：使用从图像特征中提取的信息来引导关节姿态的估计，从而更好地利用图像证据。此外，论文还引入了一个合成数据管道，用于生成大量的配对图像-相机-运动数据，以训练和评估FactorizedHMR模型。

🖼️ 关键图片

📊 实验亮点

FactorizedHMR在多个基准测试中表现出竞争力，尤其是在遮挡严重的场景和对漂移敏感的世界空间指标上取得了显著的提升。实验结果表明，FactorizedHMR能够有效地处理HMR中的模糊性，并生成更准确和稳定的3D人体网格重建结果。合成数据增强策略也显著提升了模型的泛化能力。

🎯 应用场景

FactorizedHMR在动作捕捉、虚拟现实、增强现实、人机交互、智能监控等领域具有广泛的应用前景。该技术可以用于创建更逼真和自然的虚拟人物，改进人机交互的体验，以及提高智能监控系统的准确性和可靠性。此外，FactorizedHMR还可以用于运动分析和康复训练等领域，为运动员和患者提供个性化的指导和支持。

📄 摘要（原文）

Human Mesh Recovery (HMR) is fundamentally ambiguous: under occlusion or weak depth cues, multiple 3D bodies can explain the same image evidence. This ambiguity is not uniform across the body, as torso pose and root structure are often relatively well constrained, whereas distal articulations such as the arms and legs are more uncertain. Building on this observation, we propose FactorizedHMR, a two-stage framework that treats these two regimes differently. A deterministic regression module first recovers a stable torso-root anchor, and a probabilistic flow-matching module then completes the remaining non-torso articulation. To make this completion reliable, we combine a composite target representation with geometry-aware supervision and feature-aware classifier-free guidance, preserving the torso-root anchor while improving single-reference recovery of ambiguity-prone articulation. We also introduce a synthetic data pipeline that provides the paired image-camera-motion supervision under diverse viewpoints. Across camera-space and world-space benchmarks, FactorizedHMR remains competitive with strong baselines, with the clearest gains in occlusion-heavy recovery and drift-sensitive world-space metrics.

FactorizedHMR: A Hybrid Framework for Video Human Mesh Recovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理