Pixels2Points: Fusing 2D and 3D Features for Facial Skin Segmentation

作者: Victoria Yue Chen, Daoye Wang, Stephan Garbin, Jan Bednarik, Sebastian Winberg, Timo Bolkart, Thabo Beeler

分类: cs.GR, cs.CV

发布日期: 2025-04-28 (更新: 2025-05-24)

备注: 4 pages, 4 figures, published in Eurographics 2025 as a short paper

💡 一句话要点

Pixels2Points：融合2D和3D特征实现精准面部皮肤分割

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 面部皮肤分割 2D-3D融合 人脸配准 图像基础模型 几何特征

📋 核心要点

现有面部配准方法受非皮肤区域噪声干扰，导致配准精度下降，而2D/3D分割方法各有局限。
提出Pixels2Points方法，融合多视角图像的2D特征和3D扫描的几何特征，直接在3D扫描网格上进行皮肤分割。
实验表明，该方法在面部配准精度上优于纯2D和3D分割方法，分别提升8.89%和14.3%，且在真实数据上具有良好的泛化性。

📝 摘要（中文）

面部配准通过形变模板网格使其紧密贴合3D面部扫描，但扫描质量在非皮肤区域（如头发、胡须、配饰）通常会下降，因为优化的模板到扫描距离会将模板网格拉向嘈杂的扫描表面。提高配准质量需要在扫描网格上清晰地分离皮肤和非皮肤区域。然而，现有的基于图像（2D）或基于扫描（3D）的分割方法表现不佳。基于图像的分割输出多视角不一致的掩码，并且无法解决扫描不准确或扫描-图像未对齐的问题，而基于扫描的方法与图像相比空间分辨率较低。本文提出了一种新方法，可以准确地从3D人头扫描中分离皮肤和非皮肤几何体。为此，我们的方法使用冻结的图像基础模型从多视角图像中提取特征，并在3D中聚合这些特征。然后将这些提升的2D特征与从扫描网格提取的3D几何特征融合，从而直接在扫描网格上预测分割掩码。我们表明，我们的分割方法比纯2D或3D分割方法分别提高了8.89%和14.3%的配准精度。虽然仅在合成数据上训练，但我们的模型可以很好地推广到真实数据。

🔬 方法详解

问题定义：论文旨在解决3D人脸扫描中皮肤与非皮肤区域分割不准确的问题。现有基于图像的2D分割方法存在多视角不一致性，且难以处理扫描误差和图像-扫描未对齐问题；而基于扫描的3D分割方法分辨率较低，分割精度受限。这些问题导致后续的面部配准精度下降。

核心思路：论文的核心思路是将图像的丰富纹理信息（2D特征）和3D扫描的几何信息相结合，利用图像基础模型提取高质量的2D特征，并将其投影到3D扫描网格上，与3D几何特征融合，从而实现更准确的皮肤分割。这种融合方式可以克服单一2D或3D方法的局限性。

技术框架：该方法主要包含以下几个阶段：1) 使用多视角图像作为输入，通过预训练的图像基础模型（如冻结的特征提取器）提取2D图像特征；2) 将提取的2D特征投影到3D扫描网格上，形成3D特征表示；3) 从3D扫描网格中提取3D几何特征（如法向量、曲率等）；4) 将2D投影特征和3D几何特征进行融合；5) 使用融合后的特征训练分割模型，直接在3D扫描网格上预测皮肤/非皮肤分割掩码。

关键创新：该方法最重要的创新点在于融合了2D图像特征和3D几何特征，克服了单一模态方法的局限性。通过将预训练的图像基础模型应用于3D分割任务，有效利用了图像领域的先验知识，提升了分割精度。与现有方法相比，该方法能够更好地处理扫描噪声和图像-扫描未对齐问题。

关键设计：论文使用了冻结的图像基础模型来提取2D特征，避免了在小数据集上训练带来的过拟合问题。2D特征到3D网格的投影方式需要仔细设计，以保证特征的准确传递。损失函数的设计需要考虑皮肤和非皮肤区域的类别不平衡问题。具体的网络结构和参数设置在论文中可能没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Pixels2Points方法在面部配准精度上显著优于纯2D和3D分割方法，分别提升了8.89%和14.3%。即使仅在合成数据上训练，该模型在真实数据上也表现出良好的泛化能力，证明了该方法的有效性和鲁棒性。这些结果表明，融合2D和3D特征可以显著提高面部皮肤分割的准确性。

🎯 应用场景

该研究成果可广泛应用于人脸建模、人脸识别、虚拟现实、增强现实等领域。精准的皮肤分割可以提高面部配准的准确性，从而改善3D人脸模型的质量。此外，该技术还可以应用于医疗美容领域，例如辅助皮肤病诊断和治疗。

📄 摘要（原文）

Face registration deforms a template mesh to closely fit a 3D face scan, the quality of which commonly degrades in non-skin regions (e.g., hair, beard, accessories), because the optimized template-to-scan distance pulls the template mesh towards the noisy scan surface. Improving registration quality requires a clean separation of skin and non-skin regions on the scan mesh. Existing image-based (2D) or scan-based (3D) segmentation methods however perform poorly. Image-based segmentation outputs multi-view inconsistent masks, and they cannot account for scan inaccuracies or scan-image misalignment, while scan-based methods suffer from lower spatial resolution compared to images. In this work, we introduce a novel method that accurately separates skin from non-skin geometry on 3D human head scans. For this, our method extracts features from multi-view images using a frozen image foundation model and aggregates these features in 3D. These lifted 2D features are then fused with 3D geometric features extracted from the scan mesh, to then predict a segmentation mask directly on the scan mesh. We show that our segmentations improve the registration accuracy over pure 2D or 3D segmentation methods by 8.89% and 14.3%, respectively. Although trained only on synthetic data, our model generalizes well to real data.

Pixels2Points: Fusing 2D and 3D Features for Facial Skin Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理