Unsupervised 3D Human Pose Estimation via Conditional Multi-view Ancestral Sampling

📄 arXiv: 2605.15583v1 📥 PDF

作者: Ryohei Goto, Takuya Fujihashi, Shunsuke Saruwatari, Fumio Okura

分类: cs.CV

发布日期: 2026-05-15

备注: International Conference on Automatic Face and Gesture Recognition (FG 2026), Oral

🔗 代码/项目: GITHUB


💡 一句话要点

提出条件多视角祖先采样(cMAS)方法,用于无监督单视角3D人体姿态估计。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 3D人体姿态估计 无监督学习 运动扩散模型 多视角学习 条件祖先采样

📋 核心要点

  1. 现有3D人体姿态估计方法依赖大量3D标注数据,成本高昂,且泛化性受限,尤其在缺乏3D监督的场景下表现不佳。
  2. 论文提出条件多视角祖先采样(cMAS),利用2D运动扩散模型(MDM)的先验知识,在2D噪声空间中优化3D姿态,实现无监督的2D到3D姿态提升。
  3. 实验表明,该方法在Yoga数据集上取得了优于现有有监督和无监督方法的跨域性能,尤其在极端姿态下优势明显。

📝 摘要(中文)

本文提出了一种无需3D监督,仅从单视角图像估计3D人体姿态的方法。该方法的核心在于利用在大型2D人体姿态数据集上预训练的运动扩散模型(MDM)的2D扩散先验。具体而言,我们将扩散模型的多视角祖先采样扩展到人体姿态的2D-3D提升任务。为此,我们新提出了一种条件多视角祖先采样(cMAS),它优化3D姿态,使其多视角投影遵循2D MDM噪声空间中的流形,同时约束3D姿态以匹配给定的2D姿态和人体解剖约束。在Yoga数据集上的实验表明,与最先进的有监督和无监督3D姿态估计方法相比,我们的方法实现了更好的跨域性能,包括3D监督不可用的极端人体姿态。

🔬 方法详解

问题定义:论文旨在解决单视角图像的无监督3D人体姿态估计问题。现有方法要么依赖大量的3D标注数据,成本高昂且难以获取;要么在跨领域或极端姿态下泛化能力较差。缺乏有效的利用2D先验知识的方法,导致在没有3D监督的情况下难以准确估计3D姿态。

核心思路:论文的核心思路是利用预训练的2D运动扩散模型(MDM)所学习到的2D人体姿态流形作为先验知识,通过优化3D姿态,使其多视角投影与该流形保持一致,从而实现从2D到3D的姿态提升。这种方法避免了直接的3D监督,而是利用了更容易获取的2D数据中的信息。

技术框架:整体框架包括以下几个主要步骤:1) 输入单视角2D人体姿态;2) 初始化一个3D人体姿态;3) 将3D姿态投影到多个虚拟视角,得到多个2D姿态;4) 将这些2D姿态输入到预训练的MDM中,得到对应的噪声;5) 使用条件多视角祖先采样(cMAS)优化3D姿态,使得其多视角投影的噪声与MDM的噪声分布一致,同时满足2D姿态约束和人体解剖约束。

关键创新:最重要的技术创新点是条件多视角祖先采样(cMAS)。与传统的祖先采样不同,cMAS不仅考虑了多视角一致性,还引入了条件约束,包括与输入2D姿态的匹配以及人体解剖结构的约束。这使得优化过程更加稳定,并能生成更符合实际情况的3D姿态。与现有方法的本质区别在于,cMAS利用了预训练的2D扩散模型作为先验,避免了对3D数据的直接依赖。

关键设计:cMAS的关键设计包括:1) 多视角投影的虚拟相机参数设置;2) 用于衡量多视角投影噪声与MDM噪声分布一致性的损失函数;3) 用于约束3D姿态与输入2D姿态匹配的损失函数;4) 用于保证人体解剖结构合理的损失函数。这些损失函数共同作用,引导3D姿态的优化过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Yoga数据集上取得了显著的性能提升,尤其是在跨领域和极端姿态下,优于现有的有监督和无监督方法。这验证了利用2D扩散模型作为先验知识进行无监督3D姿态估计的有效性。代码已开源,方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可应用于各种需要3D人体姿态估计的场景,如动作捕捉、虚拟现实、人机交互、智能监控、运动分析等。尤其在缺乏3D标注数据的场景下,该方法具有显著优势。未来可进一步扩展到更复杂的场景,如多人交互、遮挡情况等,具有广阔的应用前景。

📄 摘要(原文)

We propose a method of estimating a 3D human pose from a single view without 3D supervision. The key to our method is to leverage the 2D diffusion priors of motion diffusion models (MDMs) pre-trained on large 2D human pose datasets. Specifically, we extend multi-view ancestral sampling of diffusion models to the task of 2D-3D lifting of human pose. To this end, we newly propose a conditional multi-view ancestral sampling (cMAS) that optimizes the 3D pose such that its multi-view projections follow the manifold in 2D MDM noise space, while conditioning the 3D pose to match the given 2D poses and anatomical constraints of humans. Experiments on the Yoga dataset demonstrate that our method achieves better cross-domain performance compared to state-of-the-art supervised and unsupervised 3D pose estimation methods, including extreme human poses where 3D supervision is unavailable. Code is available at: https://github.com/asaa0001/c-MAS.