Multi-hypotheses Conditioned Point Cloud Diffusion for 3D Human Reconstruction from Occluded Images

📄 arXiv: 2409.18364v3 📥 PDF

作者: Donghwan Kim, Tae-Kyun Kim

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-09-27 (更新: 2024-10-29)

备注: 17 pages, 7 figures, accepted NeurIPS 2024

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MHCDIFF,用于从被遮挡图像中重建具有细节的3D人体

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D人体重建 点云扩散 多假设学习 遮挡处理 SMPL模型

📋 核心要点

  1. 现有方法在严重遮挡下难以准确重建3D人体,参数模型受限于衣物,隐式函数方法难以处理未对齐模型。
  2. MHCDIFF利用多假设SMPL(-X)网格提取局部特征,调节点云扩散模型,生成并优化遮挡区域的3D人体形状。
  3. 实验表明,MHCDIFF在CAPE和MultiHuman数据集上优于现有方法,尤其是在合成和真实遮挡场景下。

📝 摘要(中文)

在人与物体或人与人交互造成的严重遮挡下,3D人体形状重建是一个具有挑战性的问题。基于人体形状统计的参数模型(如SMPL(-X))可以表示完整的人体形状,但仅限于穿着较少衣物的人体形状。基于隐式函数的方法从参数模型中提取特征,以利用人体先验知识,并可以捕捉服装和头发等几何细节。然而,它们通常难以处理未对齐的参数模型,并且难以根据单个RGB图像修复遮挡区域。本文提出了一种新的流程MHCDIFF,即多假设条件点云扩散,它由条件于概率分布的点云扩散组成,用于在遮挡下进行像素对齐的详细3D人体重建。与以往基于隐式函数的方法相比,点云扩散模型可以捕获全局一致的特征以生成遮挡区域,并且去噪过程可以校正未对齐的SMPL网格。MHCDIFF的核心是从多个假设的SMPL(-X)网格中提取局部特征,并聚合该特征集以调节扩散模型。在CAPE和MultiHuman数据集上的实验表明,在合成和真实遮挡下,所提出的方法优于各种基于SMPL、隐式函数、点云扩散及其组合的SOTA方法。我们的代码已公开。

🔬 方法详解

问题定义:论文旨在解决从被严重遮挡的图像中重建具有细节的3D人体形状的问题。现有方法,如基于SMPL的模型,难以捕捉服装细节;基于隐式函数的方法对参数模型的对齐敏感,且难以修复遮挡区域。这些方法在处理复杂遮挡时表现不佳。

核心思路:论文的核心思路是利用点云扩散模型生成和优化3D人体形状,并通过多假设的SMPL(-X)模型提供条件信息。这种方法结合了参数模型的先验知识和扩散模型的生成能力,从而更好地处理遮挡和几何细节。通过从多个假设的SMPL(-X)网格中提取特征,模型可以更好地理解遮挡情况并生成合理的形状。

技术框架:MHCDIFF的整体框架包括以下几个主要阶段:1) 从输入图像中估计多个假设的SMPL(-X)参数;2) 从这些SMPL(-X)网格中提取局部特征;3) 将提取的特征聚合起来,作为点云扩散模型的条件;4) 使用条件点云扩散模型生成3D人体点云;5) 通过去噪过程优化点云,校正SMPL网格的误差。

关键创新:论文的关键创新在于使用多假设的SMPL(-X)模型作为条件来引导点云扩散过程。与以往方法相比,这种方法能够更好地利用参数模型的先验知识,并减少对初始参数模型对齐的依赖。此外,使用点云扩散模型能够更好地生成和优化遮挡区域的形状。

关键设计:论文的关键设计包括:1) 使用概率分布来表示多个假设的SMPL(-X)参数;2) 设计了一种特征聚合机制,将从不同假设的SMPL(-X)网格中提取的特征融合起来;3) 使用点云扩散模型进行3D人体形状的生成和优化,包括前向扩散过程和反向去噪过程;4) 损失函数的设计,可能包括点云距离损失、法向量一致性损失等,以保证生成点云的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MHCDIFF在CAPE和MultiHuman数据集上取得了显著的性能提升,尤其是在处理合成和真实遮挡时。实验结果表明,该方法优于各种基于SMPL、隐式函数、点云扩散及其组合的SOTA方法。具体性能数据和提升幅度在论文中详细给出,证明了该方法在3D人体重建任务中的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、动画制作等领域,实现更逼真、更自然的虚拟人物交互。例如,在虚拟试衣应用中,即使穿着复杂服装,也能准确重建用户身体形状,提供更真实的试穿体验。此外,该技术还可用于运动分析、人机交互等领域。

📄 摘要(原文)

3D human shape reconstruction under severe occlusion due to human-object or human-human interaction is a challenging problem. Parametric models i.e., SMPL(-X), which are based on the statistics across human shapes, can represent whole human body shapes but are limited to minimally-clothed human shapes. Implicit-function-based methods extract features from the parametric models to employ prior knowledge of human bodies and can capture geometric details such as clothing and hair. However, they often struggle to handle misaligned parametric models and inpaint occluded regions given a single RGB image. In this work, we propose a novel pipeline, MHCDIFF, Multi-hypotheses Conditioned Point Cloud Diffusion, composed of point cloud diffusion conditioned on probabilistic distributions for pixel-aligned detailed 3D human reconstruction under occlusion. Compared to previous implicit-function-based methods, the point cloud diffusion model can capture the global consistent features to generate the occluded regions, and the denoising process corrects the misaligned SMPL meshes. The core of MHCDIFF is extracting local features from multiple hypothesized SMPL(-X) meshes and aggregating the set of features to condition the diffusion model. In the experiments on CAPE and MultiHuman datasets, the proposed method outperforms various SOTA methods based on SMPL, implicit functions, point cloud diffusion, and their combined, under synthetic and real occlusions. Our code is publicly available at https://donghwankim0101.github.io/projects/mhcdiff/ .