Pixels2Points: Fusing 2D and 3D Features for Facial Skin Segmentation

📄 arXiv: 2504.19718v3 📥 PDF

作者: Victoria Yue Chen, Daoye Wang, Stephan Garbin, Jan Bednarik, Sebastian Winberg, Timo Bolkart, Thabo Beeler

分类: cs.GR, cs.CV

发布日期: 2025-04-28 (更新: 2025-05-24)

备注: 4 pages, 4 figures, published in Eurographics 2025 as a short paper


💡 一句话要点

Pixels2Points:融合2D和3D特征实现精准面部皮肤分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面部皮肤分割 2D-3D融合 人脸配准 图像基础模型 几何特征

📋 核心要点

  1. 现有面部配准方法受非皮肤区域噪声干扰,导致配准精度下降,而2D/3D分割方法各有局限。
  2. 提出Pixels2Points方法,融合多视角图像的2D特征和3D扫描的几何特征,直接在3D扫描网格上进行皮肤分割。
  3. 实验表明,该方法在面部配准精度上优于纯2D和3D分割方法,分别提升8.89%和14.3%,且在真实数据上具有良好的泛化性。

📝 摘要(中文)

面部配准通过形变模板网格使其紧密贴合3D面部扫描,但扫描质量在非皮肤区域(如头发、胡须、配饰)通常会下降,因为优化的模板到扫描距离会将模板网格拉向嘈杂的扫描表面。提高配准质量需要在扫描网格上清晰地分离皮肤和非皮肤区域。然而,现有的基于图像(2D)或基于扫描(3D)的分割方法表现不佳。基于图像的分割输出多视角不一致的掩码,并且无法解决扫描不准确或扫描-图像未对齐的问题,而基于扫描的方法与图像相比空间分辨率较低。本文提出了一种新方法,可以准确地从3D人头扫描中分离皮肤和非皮肤几何体。为此,我们的方法使用冻结的图像基础模型从多视角图像中提取特征,并在3D中聚合这些特征。然后将这些提升的2D特征与从扫描网格提取的3D几何特征融合,从而直接在扫描网格上预测分割掩码。我们表明,我们的分割方法比纯2D或3D分割方法分别提高了8.89%和14.3%的配准精度。虽然仅在合成数据上训练,但我们的模型可以很好地推广到真实数据。

🔬 方法详解

问题定义:论文旨在解决3D人脸扫描中皮肤与非皮肤区域分割不准确的问题。现有基于图像的2D分割方法存在多视角不一致性,且难以处理扫描误差和图像-扫描未对齐问题;而基于扫描的3D分割方法分辨率较低,分割精度受限。这些问题导致后续的面部配准精度下降。

核心思路:论文的核心思路是将图像的丰富纹理信息(2D特征)和3D扫描的几何信息相结合,利用图像基础模型提取高质量的2D特征,并将其投影到3D扫描网格上,与3D几何特征融合,从而实现更准确的皮肤分割。这种融合方式可以克服单一2D或3D方法的局限性。

技术框架:该方法主要包含以下几个阶段:1) 使用多视角图像作为输入,通过预训练的图像基础模型(如冻结的特征提取器)提取2D图像特征;2) 将提取的2D特征投影到3D扫描网格上,形成3D特征表示;3) 从3D扫描网格中提取3D几何特征(如法向量、曲率等);4) 将2D投影特征和3D几何特征进行融合;5) 使用融合后的特征训练分割模型,直接在3D扫描网格上预测皮肤/非皮肤分割掩码。

关键创新:该方法最重要的创新点在于融合了2D图像特征和3D几何特征,克服了单一模态方法的局限性。通过将预训练的图像基础模型应用于3D分割任务,有效利用了图像领域的先验知识,提升了分割精度。与现有方法相比,该方法能够更好地处理扫描噪声和图像-扫描未对齐问题。

关键设计:论文使用了冻结的图像基础模型来提取2D特征,避免了在小数据集上训练带来的过拟合问题。2D特征到3D网格的投影方式需要仔细设计,以保证特征的准确传递。损失函数的设计需要考虑皮肤和非皮肤区域的类别不平衡问题。具体的网络结构和参数设置在论文中可能没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Pixels2Points方法在面部配准精度上显著优于纯2D和3D分割方法,分别提升了8.89%和14.3%。即使仅在合成数据上训练,该模型在真实数据上也表现出良好的泛化能力,证明了该方法的有效性和鲁棒性。这些结果表明,融合2D和3D特征可以显著提高面部皮肤分割的准确性。

🎯 应用场景

该研究成果可广泛应用于人脸建模、人脸识别、虚拟现实、增强现实等领域。精准的皮肤分割可以提高面部配准的准确性,从而改善3D人脸模型的质量。此外,该技术还可以应用于医疗美容领域,例如辅助皮肤病诊断和治疗。

📄 摘要(原文)

Face registration deforms a template mesh to closely fit a 3D face scan, the quality of which commonly degrades in non-skin regions (e.g., hair, beard, accessories), because the optimized template-to-scan distance pulls the template mesh towards the noisy scan surface. Improving registration quality requires a clean separation of skin and non-skin regions on the scan mesh. Existing image-based (2D) or scan-based (3D) segmentation methods however perform poorly. Image-based segmentation outputs multi-view inconsistent masks, and they cannot account for scan inaccuracies or scan-image misalignment, while scan-based methods suffer from lower spatial resolution compared to images. In this work, we introduce a novel method that accurately separates skin from non-skin geometry on 3D human head scans. For this, our method extracts features from multi-view images using a frozen image foundation model and aggregates these features in 3D. These lifted 2D features are then fused with 3D geometric features extracted from the scan mesh, to then predict a segmentation mask directly on the scan mesh. We show that our segmentations improve the registration accuracy over pure 2D or 3D segmentation methods by 8.89% and 14.3%, respectively. Although trained only on synthetic data, our model generalizes well to real data.