LieHMR: Autoregressive Human Mesh Recovery with $SO(3)$ Diffusion
作者: Donghwan Kim, Tae-Kyun Kim
分类: cs.CV
发布日期: 2025-09-30
备注: 17 pages, 13 figures
💡 一句话要点
提出基于$SO(3)$扩散的自回归人体网格重建LieHMR模型,解决单目图像三维人体姿态估计的歧义性问题。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体网格重建 三维人体姿态估计 扩散模型 $SO(3)$扩散 自回归模型
📋 核心要点
- 现有HMR方法在处理2D到3D姿态估计的歧义性时,常回归单一确定性结果,或在准确性和多样性间妥协。
- LieHMR利用$SO(3)$扩散模型,通过条件dropout生成姿态参数分布,更好地对齐2D观测,建模姿态的不确定性。
- 模型采用Transformer学习人体关节层次结构,并使用MLP进行关节分布建模,实验验证了其姿态概率分布预测的有效性。
📝 摘要(中文)
本文研究了从单张RGB图像中进行人体网格重建(HMR)的问题,并将其建模为图像条件下的姿态和形状生成。从2D观测中恢复3D人体姿态具有内在的歧义性,现有方法大多回归单一的确定性输出。概率方法试图通过生成多个合理输出来解决这个问题,但这些方法通常在准确性和样本多样性之间进行权衡,并且它们的单次预测结果与最先进的确定性模型相比不具竞争力。为了克服这些限制,我们提出了一种新方法,该方法对与2D观测对齐良好的分布进行建模。特别地,我们引入了$SO(3)$扩散模型,该模型通过条件dropout生成姿态参数(表示为3D旋转)的分布,包括无条件和条件于图像观测两种情况。我们的模型使用Transformer学习人体关节的层次结构。与使用Transformer作为去噪模型不同,时间独立的Transformer提取关节的潜在向量,而基于小型MLP的去噪模型学习以潜在向量为条件的每个关节的分布。实验结果表明,我们的模型能够有效地预测准确的姿态概率分布。
🔬 方法详解
问题定义:论文旨在解决单目图像三维人体网格重建(HMR)中,由于2D观测到3D姿态映射的内在歧义性,导致现有方法要么输出单一确定性结果,要么在准确性和样本多样性之间妥协的问题。现有方法的痛点在于无法有效建模姿态的不确定性,导致单次预测结果不理想。
核心思路:论文的核心思路是利用扩散模型学习人体姿态参数的概率分布,从而更好地建模姿态的歧义性。具体而言,论文引入了$SO(3)$扩散模型,该模型能够生成姿态参数(表示为3D旋转)的分布,并可以通过条件dropout将图像观测作为条件,从而实现图像条件下的姿态生成。这种方法能够更好地对齐2D观测,并生成多个合理的3D姿态估计。
技术框架:整体框架包含一个图像编码器和一个姿态生成器。图像编码器负责提取图像特征,姿态生成器基于$SO(3)$扩散模型生成姿态参数。姿态生成器使用Transformer学习人体关节的层次结构,并使用MLP进行关节分布建模。具体流程如下:1. 输入单张RGB图像;2. 图像编码器提取图像特征;3. 时间独立的Transformer提取关节的潜在向量;4. 基于小型MLP的去噪模型学习以潜在向量为条件的每个关节的分布;5. 通过扩散过程生成最终的3D人体姿态。
关键创新:最重要的技术创新点在于引入了$SO(3)$扩散模型来建模人体姿态的概率分布。与现有方法直接回归姿态参数或使用GAN等方法生成多个姿态估计不同,该方法通过扩散过程逐步生成姿态参数,能够更好地捕捉姿态的复杂性和不确定性。此外,使用时间独立的Transformer提取关节的潜在向量,并使用MLP进行关节分布建模,也提高了模型的效率和准确性。
关键设计:关键设计包括:1. 使用$SO(3)$表示姿态参数,能够更好地处理旋转的连续性和周期性;2. 使用条件dropout将图像观测作为条件,从而实现图像条件下的姿态生成;3. 使用Transformer学习人体关节的层次结构,能够更好地捕捉关节之间的依赖关系;4. 使用MLP进行关节分布建模,能够更有效地学习每个关节的分布。
📊 实验亮点
论文实验结果表明,提出的LieHMR模型能够有效地预测准确的姿态概率分布。虽然摘要中没有给出具体的性能数据和对比基线,但强调了该模型在准确性和样本多样性方面优于现有方法,并且能够生成与2D观测对齐良好的3D人体姿态估计。未来的实验部分应该会给出更详细的定量分析结果。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、动画制作、运动分析、智能监控等领域。通过更准确地估计人体姿态和形状,可以提升用户交互体验,实现更逼真的人物动画,并为运动分析和智能监控提供更可靠的数据支持。未来,该技术有望应用于自动驾驶、机器人等领域,实现更智能的人机交互。
📄 摘要(原文)
We tackle the problem of Human Mesh Recovery (HMR) from a single RGB image, formulating it as an image-conditioned human pose and shape generation. While recovering 3D human pose from 2D observations is inherently ambiguous, most existing approaches have regressed a single deterministic output. Probabilistic methods attempt to address this by generating multiple plausible outputs to model the ambiguity. However, these methods often exhibit a trade-off between accuracy and sample diversity, and their single predictions are not competitive with state-of-the-art deterministic models. To overcome these limitations, we propose a novel approach that models well-aligned distribution to 2D observations. In particular, we introduce $SO(3)$ diffusion model, which generates the distribution of pose parameters represented as 3D rotations unconditional and conditional to image observations via conditioning dropout. Our model learns the hierarchical structure of human body joints using the transformer. Instead of using transformer as a denoising model, the time-independent transformer extracts latent vectors for the joints and a small MLP-based denoising model learns the per-joint distribution conditioned on the latent vector. We experimentally demonstrate and analyze that our model predicts accurate pose probability distribution effectively.