LieHMR: Autoregressive Human Mesh Recovery with $SO(3)$ Diffusion
作者: Donghwan Kim, Tae-Kyun Kim
分类: cs.CV
发布日期: 2025-09-30
备注: 17 pages, 13 figures
💡 一句话要点
提出基于$SO(3)$扩散的自回归人体网格恢复方法,解决单目图像三维人体姿态估计的歧义性问题。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体网格恢复 三维人体姿态估计 扩散模型 $SO(3)$扩散 自回归模型 图像条件生成 深度学习
📋 核心要点
- 现有HMR方法难以兼顾准确性和多样性,且确定性模型无法有效处理2D到3D姿态估计的固有歧义性。
- 提出基于$SO(3)$扩散模型的自回归HMR框架,利用条件dropout生成姿态分布,更好地对齐2D观测。
- 实验结果表明,该模型能够有效预测准确的姿态概率分布,优于现有方法。
📝 摘要(中文)
本文研究了从单张RGB图像中进行人体网格恢复(HMR)的问题,将其建模为图像条件下的姿态和形状生成。从2D观测中恢复3D人体姿态本质上是模糊的,而现有方法大多回归单一的确定性输出。概率方法试图通过生成多个合理输出来解决这个问题,以模拟模糊性。然而,这些方法通常在准确性和样本多样性之间存在权衡,并且它们的单一预测结果与最先进的确定性模型相比不具竞争力。为了克服这些限制,我们提出了一种新颖的方法,该方法对与2D观测对齐良好的分布进行建模。特别地,我们引入了$SO(3)$扩散模型,该模型通过条件dropout生成姿态参数(表示为3D旋转)的分布,包括无条件和条件于图像观测两种情况。我们的模型使用Transformer学习人体关节的层次结构。与使用Transformer作为去噪模型不同,时间独立的Transformer提取关节的潜在向量,而基于小型MLP的去噪模型学习以潜在向量为条件的每个关节的分布。实验结果表明,我们的模型能够有效地预测准确的姿态概率分布。
🔬 方法详解
问题定义:论文旨在解决单张RGB图像人体网格恢复(HMR)中,由于2D到3D姿态估计的固有歧义性,导致现有方法难以生成准确且多样性姿态的问题。现有方法要么是确定性回归,无法处理歧义性;要么是概率模型,但准确性和多样性之间存在trade-off。
核心思路:论文的核心思路是使用$SO(3)$扩散模型来建模人体姿态参数的分布,从而更好地处理歧义性。通过将姿态表示为3D旋转,并利用扩散模型学习姿态的概率分布,模型可以生成多个合理的姿态估计,同时保持较高的准确性。条件dropout机制用于将图像信息融入到扩散过程中,从而实现图像条件下的姿态生成。
技术框架:整体框架包含以下几个主要模块:1) 一个图像编码器,用于提取图像特征;2) 一个时间独立的Transformer,用于学习人体关节的层次结构并提取关节的潜在向量;3) 一个$SO(3)$扩散模型,用于生成姿态参数的分布,该模型包含一个基于小型MLP的去噪网络,用于学习以潜在向量为条件的每个关节的分布。整个流程是:输入图像,提取图像特征,利用Transformer提取关节潜在向量,然后使用$SO(3)$扩散模型生成姿态参数。
关键创新:最重要的技术创新点在于使用$SO(3)$扩散模型来建模人体姿态参数的分布。与现有方法不同,该方法不是直接回归姿态参数,而是学习姿态的概率分布,从而更好地处理歧义性。此外,使用时间独立的Transformer提取关节潜在向量,并使用小型MLP进行去噪,降低了计算复杂度。
关键设计:论文使用$SO(3)$表示姿态参数,这使得模型能够更好地处理旋转的连续性和周期性。条件dropout机制用于将图像信息融入到扩散过程中。Transformer用于学习人体关节的层次结构,并提取关节的潜在向量。基于小型MLP的去噪网络用于学习以潜在向量为条件的每个关节的分布。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了所提出的$SO(3)$扩散模型能够有效地预测准确的姿态概率分布。具体性能数据、对比基线和提升幅度在摘要中未提及,具体实验结果未知。但摘要强调该模型在准确性和多样性方面优于现有方法。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、动画制作、运动分析、智能监控等领域。通过准确地从单张图像中恢复人体姿态和形状,可以实现更自然的人机交互、更逼真的虚拟人物动画以及更智能的运动分析和监控系统。未来,该技术有望在自动驾驶、机器人等领域发挥重要作用。
📄 摘要(原文)
We tackle the problem of Human Mesh Recovery (HMR) from a single RGB image, formulating it as an image-conditioned human pose and shape generation. While recovering 3D human pose from 2D observations is inherently ambiguous, most existing approaches have regressed a single deterministic output. Probabilistic methods attempt to address this by generating multiple plausible outputs to model the ambiguity. However, these methods often exhibit a trade-off between accuracy and sample diversity, and their single predictions are not competitive with state-of-the-art deterministic models. To overcome these limitations, we propose a novel approach that models well-aligned distribution to 2D observations. In particular, we introduce $SO(3)$ diffusion model, which generates the distribution of pose parameters represented as 3D rotations unconditional and conditional to image observations via conditioning dropout. Our model learns the hierarchical structure of human body joints using the transformer. Instead of using transformer as a denoising model, the time-independent transformer extracts latent vectors for the joints and a small MLP-based denoising model learns the per-joint distribution conditioned on the latent vector. We experimentally demonstrate and analyze that our model predicts accurate pose probability distribution effectively.