MeshPose: Unifying DensePose and 3D Body Mesh reconstruction
作者: Eric-Tuan Lê, Antonis Kakolyris, Petros Koutras, Himmy Tam, Efstratios Skordos, George Papandreou, Rıza Alp Güler, Iasonas Kokkinos
分类: cs.CV
发布日期: 2024-06-14
备注: IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
期刊: CVPR 2024
💡 一句话要点
MeshPose:统一DensePose与3D人体网格重建,实现高精度实时人体姿态估计
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体姿态估计 3D人体网格重建 DensePose 弱监督学习 增强现实 实时性 计算机视觉
📋 核心要点
- 现有HMR方法在2D重投影精度上表现不足,无法充分利用DensePose提供的像素级对应关系。
- MeshPose通过引入新的损失函数,利用弱DensePose监督信号,精确回归部分网格顶点在2D图像上的位置。
- 该方法将2D顶点提升至3D空间,生成低多边形人体网格,并在DensePose精度上达到具有竞争力的水平。
📝 摘要(中文)
本文提出MeshPose,旨在联合解决DensePose和人体网格重建(HMR)问题。DensePose提供图像与3D网格坐标的像素级精确关联,但不提供3D网格;而HMR系统在DensePose定位指标上具有较高的2D重投影误差。为此,我们首先引入新的损失函数,允许使用弱DensePose监督来精确定位网格顶点子集('VertexPose')。然后,我们将这些顶点提升到3D,从而产生一个低多边形人体网格('MeshPose')。我们的系统以端到端的方式进行训练,是第一个达到具有竞争力的DensePose精度的HMR方法,同时具有轻量级和易于高效推理的特点,使其适用于实时AR应用。
🔬 方法详解
问题定义:现有的人体网格重建(HMR)方法,虽然能够生成3D人体网格,但在2D图像上的重投影精度不高,无法充分利用DensePose提供的像素级别的对应关系。DensePose虽然提供了像素级别的3D网格坐标关联,但本身并不生成3D网格模型。因此,如何结合两者的优势,实现高精度的人体姿态估计是一个挑战。
核心思路:MeshPose的核心思路是利用DensePose的弱监督信息,首先精确地在2D图像上定位一部分网格顶点(VertexPose),然后将这些2D顶点提升到3D空间,从而构建一个低多边形的人体网格(MeshPose)。通过这种方式,可以有效地结合DensePose的像素级精度和HMR的3D建模能力。
技术框架:MeshPose的整体框架是一个端到端的学习系统。它接收单张RGB图像作为输入,首先通过一个卷积神经网络提取图像特征。然后,利用这些特征预测2D网格顶点的位置(VertexPose)。接着,将这些2D顶点提升到3D空间,生成3D人体网格(MeshPose)。整个过程通过联合优化VertexPose和MeshPose的损失函数来实现。
关键创新:MeshPose的关键创新在于引入了新的损失函数,使得可以使用弱DensePose监督来精确地定位2D网格顶点。此外,该方法还提出了一种将2D顶点提升到3D空间的技术,从而生成低多边形的人体网格。这种方法有效地结合了DensePose的像素级精度和HMR的3D建模能力,实现了高精度的人体姿态估计。
关键设计:MeshPose的关键设计包括:1) 用于预测2D网格顶点位置的卷积神经网络结构;2) 用于将2D顶点提升到3D空间的算法;3) 用于联合优化VertexPose和MeshPose的损失函数。损失函数包括2D重投影误差、3D网格形状误差等。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
MeshPose在DensePose精度上达到了具有竞争力的水平,同时保持了轻量级和高效推理的特点。实验结果表明,MeshPose在DensePose IOU指标上取得了显著的提升,并且在实时性方面表现出色,能够满足AR应用的需求。具体的性能数据和对比基线在论文中有详细的展示。
🎯 应用场景
MeshPose具有广泛的应用前景,例如增强现实(AR)、虚拟现实(VR)、游戏、动画制作、人体动作捕捉、智能监控等领域。该方法能够实时、准确地估计人体姿态,为这些应用提供重要的技术支持。尤其是在AR应用中,MeshPose的轻量级和高效推理的特点使其能够满足实时性的要求。
📄 摘要(原文)
DensePose provides a pixel-accurate association of images with 3D mesh coordinates, but does not provide a 3D mesh, while Human Mesh Reconstruction (HMR) systems have high 2D reprojection error, as measured by DensePose localization metrics. In this work we introduce MeshPose to jointly tackle DensePose and HMR. For this we first introduce new losses that allow us to use weak DensePose supervision to accurately localize in 2D a subset of the mesh vertices ('VertexPose'). We then lift these vertices to 3D, yielding a low-poly body mesh ('MeshPose'). Our system is trained in an end-to-end manner and is the first HMR method to attain competitive DensePose accuracy, while also being lightweight and amenable to efficient inference, making it suitable for real-time AR applications.