PHD: Personalized 3D Human Body Fitting with Point Diffusion

📄 arXiv: 2508.21257v1 📥 PDF

作者: Hsuan-I Ho, Chen Guo, Po-Chen Wu, Ivan Shugurov, Chengcheng Tang, Abhay Mittal, Sizhe An, Manuel Kaufmann, Linguang Zhang

分类: cs.CV

发布日期: 2025-08-28

备注: ICCV 2025, 19 pages, 18 figures


💡 一句话要点

PHD:利用点扩散的个性化3D人体姿态拟合,提升视频姿态估计精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D人体姿态估计 个性化建模 点扩散模型 Transformer 身体形状先验 视频姿态估计 人体网格重建

📋 核心要点

  1. 现有HMR方法忽略了个性化身体形状信息,过度依赖2D约束,导致3D姿态估计精度受损。
  2. PHD通过先校准用户身体形状,再利用点扩散Transformer学习的3D姿态先验进行个性化姿态拟合。
  3. 实验表明,PHD在骨盆对齐和绝对姿态精度上均有提升,且仅需合成数据训练,可作为即插即用模块。

📝 摘要(中文)

本文提出了一种名为PHD的全新个性化3D人体网格重建(HMR)和身体拟合方法。该方法利用用户特定的身体形状信息来提高视频中的姿态估计精度。传统的HMR方法是用户无关的,并且针对泛化性进行了优化。虽然这些方法通常使用源自2D图像的约束来细化姿态以改善对齐,但这种过程通过未能联合考虑特定于人的身体形状和3D姿态的合理性而损害了3D精度。相比之下,我们的流程通过首先校准用户的身体形状,然后采用以该形状为条件的个性化姿态拟合过程来解耦此过程。为了实现这一点,我们开发了一种身体形状条件下的3D姿态先验,该先验被实现为点扩散Transformer,它通过点蒸馏采样损失迭代地引导姿态拟合。这种学习到的3D姿态先验有效地减轻了过度依赖2D约束而产生的误差。因此,我们的方法不仅提高了骨盆对齐的姿态精度,而且提高了绝对姿态精度——这是先前工作经常忽略的重要指标。此外,我们的方法具有高度的数据效率,只需要合成数据进行训练,并且可以作为一个通用的即插即用模块,可以与现有的3D姿态估计器无缝集成,以提高它们的性能。

🔬 方法详解

问题定义:现有3D人体网格重建(HMR)方法通常是用户无关的,追求泛化性,忽略了个性化的身体形状信息。为了提高姿态估计精度,现有方法往往依赖2D图像约束进行姿态细化,但这种做法没有充分考虑3D姿态的合理性以及个体差异,导致3D精度下降。

核心思路:PHD的核心思路是将身体形状校准和姿态拟合解耦。首先,校准用户的身体形状。然后,利用校准后的身体形状作为条件,进行个性化的3D姿态拟合。通过这种方式,可以更好地利用个体信息,并避免过度依赖2D约束。

技术框架:PHD的整体流程包括两个主要阶段:身体形状校准和个性化姿态拟合。身体形状校准阶段用于估计用户的身体形状参数。个性化姿态拟合阶段利用校准后的身体形状作为条件,通过点扩散Transformer学习到的3D姿态先验,迭代地优化姿态估计。该框架可以作为一个即插即用模块,集成到现有的3D姿态估计器中。

关键创新:PHD的关键创新在于提出了一个身体形状条件下的3D姿态先验,并使用点扩散Transformer来实现。与现有方法不同,PHD不是直接从2D图像中估计姿态,而是利用学习到的3D姿态先验来约束姿态估计过程,从而提高3D姿态的合理性和精度。

关键设计:PHD使用点扩散Transformer来学习3D姿态先验。点扩散Transformer以身体形状参数作为条件,通过点蒸馏采样损失来训练。点蒸馏采样损失用于引导姿态拟合过程,使其符合学习到的3D姿态先验。具体的网络结构和参数设置未知,但整体目标是学习一个能够生成合理3D人体姿态的先验模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PHD在实验中展示了优越的性能,不仅提高了骨盆对齐的姿态精度,还提升了绝对姿态精度,而后者是先前工作经常忽略的指标。此外,PHD仅需合成数据进行训练,具有很高的数据效率,并且可以作为即插即用模块集成到现有3D姿态估计器中,进一步提升其性能。具体的性能数据和提升幅度未知。

🎯 应用场景

PHD可应用于虚拟现实、增强现实、游戏、动画制作、运动分析、医疗康复等领域。通过提供更准确的个性化3D人体姿态估计,可以提升用户体验,改善人机交互,并为相关应用提供更可靠的数据支持。该研究的未来影响在于推动个性化3D人体建模和姿态估计技术的发展,并促进其在更广泛领域的应用。

📄 摘要(原文)

We introduce PHD, a novel approach for personalized 3D human mesh recovery (HMR) and body fitting that leverages user-specific shape information to improve pose estimation accuracy from videos. Traditional HMR methods are designed to be user-agnostic and optimized for generalization. While these methods often refine poses using constraints derived from the 2D image to improve alignment, this process compromises 3D accuracy by failing to jointly account for person-specific body shapes and the plausibility of 3D poses. In contrast, our pipeline decouples this process by first calibrating the user's body shape and then employing a personalized pose fitting process conditioned on that shape. To achieve this, we develop a body shape-conditioned 3D pose prior, implemented as a Point Diffusion Transformer, which iteratively guides the pose fitting via a Point Distillation Sampling loss. This learned 3D pose prior effectively mitigates errors arising from an over-reliance on 2D constraints. Consequently, our approach improves not only pelvis-aligned pose accuracy but also absolute pose accuracy -- an important metric often overlooked by prior work. Furthermore, our method is highly data-efficient, requiring only synthetic data for training, and serves as a versatile plug-and-play module that can be seamlessly integrated with existing 3D pose estimators to enhance their performance. Project page: https://phd-pose.github.io/