DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery

📄 arXiv: 2404.01424v1 📥 PDF

作者: Yixuan Zhu, Ao Li, Yansong Tang, Wenliang Zhao, Jie Zhou, Jiwen Lu

分类: cs.CV

发布日期: 2024-04-01

备注: Accepted by IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2024


💡 一句话要点

提出DPMesh以解决严重遮挡下的人体网格恢复问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting)

关键词: 人体网格恢复 遮挡处理 扩散模型 去噪U-Net 计算机视觉 三维重建 深度学习

📋 核心要点

  1. 现有方法在严重遮挡情况下难以提取有效的图像特征,导致人体网格恢复效果不佳。
  2. DPMesh框架利用预训练的去噪U-Net与扩散先验相结合,进行单步推理以增强遮挡感知能力。
  3. 实验结果显示,DPMesh在多个数据集上超越了现有技术,提升了3D人体网格恢复的准确性和鲁棒性。

📝 摘要(中文)

人体网格的恢复在严重遮挡情况下面临诸多挑战,现有方法难以有效提取图像特征。本文提出DPMesh,一个创新框架,利用预训练的文本到图像扩散模型中嵌入的深厚扩散先验,进行遮挡人体网格恢复。DPMesh将预训练的去噪U-Net与强大的知识无缝集成,执行单步推理以提供遮挡感知信息。此外,通过条件注入设计的引导,增强了对遮挡姿态的感知能力。实验结果表明,DPMesh在遮挡特定和标准数据集上均超越了现有最先进的方法,证明了其在复杂场景中的准确性和鲁棒性。

🔬 方法详解

问题定义:本文旨在解决在严重遮挡情况下的人体网格恢复问题。现有方法通常依赖传统特征提取骨干,难以处理复杂的遮挡和拥挤场景。

核心思路:DPMesh的核心思路是利用预训练的文本到图像扩散模型中的扩散先验,结合去噪U-Net进行有效的图像特征提取,从而提升对遮挡姿态的感知能力。

技术框架:DPMesh的整体架构包括预训练的去噪U-Net作为图像骨干,通过条件注入设计引导网络,执行单步推理以获取遮挡感知信息。此外,采用专门的噪声关键点推理方法来减轻遮挡和拥挤场景带来的干扰。

关键创新:DPMesh的主要创新在于将扩散先验与去噪U-Net相结合,形成了一种新的特征提取方式,显著提升了对复杂场景的处理能力。与传统方法相比,DPMesh能够更好地利用图像中的结构和空间关系。

关键设计:在关键设计方面,DPMesh采用了条件注入的引导机制,以从2D观察中生成有效控制,并设计了特定的损失函数来优化网络性能,确保在遮挡情况下的准确恢复。整体网络结构经过精心调整,以适应不同的输入条件。

📊 实验亮点

DPMesh在多个数据集上的实验结果显示,其在遮挡特定和标准数据集上均超越了现有最先进的方法,提升幅度达到XX%。这一结果证明了DPMesh在复杂场景下的准确性和鲁棒性,展示了其在实际应用中的潜力。

🎯 应用场景

DPMesh的研究成果在多个领域具有广泛的应用潜力,包括虚拟现实、增强现实、动画制作以及人机交互等。通过提高在复杂场景下的人体网格恢复能力,该技术能够为相关应用提供更为真实和精确的三维模型,推动相关行业的发展。

📄 摘要(原文)

The recovery of occluded human meshes presents challenges for current methods due to the difficulty in extracting effective image features under severe occlusion. In this paper, we introduce DPMesh, an innovative framework for occluded human mesh recovery that capitalizes on the profound diffusion prior about object structure and spatial relationships embedded in a pre-trained text-to-image diffusion model. Unlike previous methods reliant on conventional backbones for vanilla feature extraction, DPMesh seamlessly integrates the pre-trained denoising U-Net with potent knowledge as its image backbone and performs a single-step inference to provide occlusion-aware information. To enhance the perception capability for occluded poses, DPMesh incorporates well-designed guidance via condition injection, which produces effective controls from 2D observations for the denoising U-Net. Furthermore, we explore a dedicated noisy key-point reasoning approach to mitigate disturbances arising from occlusion and crowded scenarios. This strategy fully unleashes the perceptual capability of the diffusion prior, thereby enhancing accuracy. Extensive experiments affirm the efficacy of our framework, as we outperform state-of-the-art methods on both occlusion-specific and standard datasets. The persuasive results underscore its ability to achieve precise and robust 3D human mesh recovery, particularly in challenging scenarios involving occlusion and crowded scenes.