BLADE: Single-view Body Mesh Learning through Accurate Depth Estimation

📄 arXiv: 2412.08640v1 📥 PDF

作者: Shengze Wang, Jiefeng Li, Tianye Li, Ye Yuan, Henry Fuchs, Koki Nagano, Shalini De Mello, Michael Stengel

分类: cs.CV

发布日期: 2024-12-11


💡 一句话要点

BLADE:通过精确深度估计实现单视图人体网格学习,提升近距离图像的3D姿态和2D对齐精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人体网格重建 单视图重建 深度估计 透视投影 3D姿态估计

📋 核心要点

  1. 现有单图像人体网格重建方法在近距离图像上表现不佳,无法同时保证3D姿态和2D对齐的准确性。
  2. BLADE方法利用透视畸变与Z轴平移Tz的反比关系,从单张图像中准确估计透视参数,无需启发式假设。
  3. 实验结果表明,BLADE方法在3D姿态估计和2D对齐方面达到了最先进的精度,尤其是在近距离图像上。

📝 摘要(中文)

单图像人体网格重建是一项具有挑战性的任务,因为同时估计人体形状、姿态和相机参数具有病态性。现有方法在远距离图像上表现良好,但当人靠近相机时效果会下降。此外,当前方法无法同时实现精确的3D姿态和2D对齐。误差主要来源于从正交参数启发式导出的不准确的透视投影。为了解决这个长期存在的挑战,我们提出了BLADE方法,该方法可以从单张图像中准确地恢复透视参数,而无需启发式假设。我们从透视畸变与人的Z轴平移Tz之间的反比关系入手,并表明Tz可以从图像中可靠地估计。然后,我们讨论了Tz对于从近距离图像估计的精确人体网格重建的重要作用。最后,我们表明,一旦估计了Tz和3D人体网格,就可以准确地恢复焦距和完整的3D平移。在标准基准和真实近距离图像上的大量实验表明,我们的方法是第一个能够从单张图像中准确恢复投影参数的方法,从而在各种图像上获得最先进的3D姿态估计和2D对齐精度。

🔬 方法详解

问题定义:论文旨在解决单视图人体网格重建中,尤其是在近距离图像中,由于不准确的透视投影参数估计导致的3D姿态估计和2D对齐精度不足的问题。现有方法依赖于从正交参数启发式导出的透视投影,这在近距离场景下会引入较大的误差。

核心思路:论文的核心思路是利用透视畸变与人体在相机坐标系下的Z轴平移(Tz)之间的反比关系,直接从图像中估计Tz。通过准确估计Tz,可以更精确地恢复透视投影参数,从而提高人体网格重建的精度。

技术框架:BLADE方法首先通过一个深度估计网络预测场景深度图。然后,利用深度图和图像信息估计人体在相机坐标系下的Z轴平移Tz。接着,结合估计的Tz和其他图像特征,重建3D人体网格。最后,利用估计的3D人体网格和Tz,进一步优化相机焦距和3D平移参数。整体流程包括深度估计、Tz估计、人体网格重建和相机参数优化四个主要阶段。

关键创新:最重要的技术创新点在于直接从单张图像中准确估计Z轴平移Tz,并将其作为精确透视投影参数估计的关键。与现有方法依赖启发式假设不同,BLADE方法通过学习图像特征与Tz之间的关系,实现了更鲁棒和准确的透视参数估计。

关键设计:论文使用深度估计网络预测场景深度图,并设计了一个损失函数来约束Tz的估计精度。此外,论文还提出了一种迭代优化策略,交替优化3D人体网格和相机参数,以进一步提高重建精度。具体的网络结构和损失函数细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BLADE方法在标准基准测试和真实近距离图像上均取得了最先进的3D姿态估计和2D对齐精度。与现有方法相比,BLADE方法在近距离图像上的性能提升尤为显著,证明了其在处理透视畸变方面的优势。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、人机交互、运动分析、游戏开发等领域。通过精确的人体网格重建,可以实现更逼真的虚拟人物建模、更自然的交互体验以及更准确的运动捕捉和分析。

📄 摘要(原文)

Single-image human mesh recovery is a challenging task due to the ill-posed nature of simultaneous body shape, pose, and camera estimation. Existing estimators work well on images taken from afar, but they break down as the person moves close to the camera. Moreover, current methods fail to achieve both accurate 3D pose and 2D alignment at the same time. Error is mainly introduced by inaccurate perspective projection heuristically derived from orthographic parameters. To resolve this long-standing challenge, we present our method BLADE which accurately recovers perspective parameters from a single image without heuristic assumptions. We start from the inverse relationship between perspective distortion and the person's Z-translation Tz, and we show that Tz can be reliably estimated from the image. We then discuss the important role of Tz for accurate human mesh recovery estimated from close-range images. Finally, we show that, once Tz and the 3D human mesh are estimated, one can accurately recover the focal length and full 3D translation. Extensive experiments on standard benchmarks and real-world close-range images show that our method is the first to accurately recover projection parameters from a single image, and consequently attain state-of-the-art accuracy on 3D pose estimation and 2D alignment for a wide range of images. https://research.nvidia.com/labs/amri/projects/blade/