Efficient Label Refinement for Face Parsing Under Extreme Poses Using 3D Gaussian Splatting

📄 arXiv: 2510.08096v1 📥 PDF

作者: Ankit Gahlawat, Anirban Mukherjee, Dinesh Babu Jayagopi

分类: cs.CV

发布日期: 2025-10-09

备注: Accepted to VCIP 2025 (International Conference on Visual Communications and Image Processing 2025)


💡 一句话要点

利用3D高斯溅射进行人脸解析标签优化,提升极端姿态下的解析精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人脸解析 3D高斯溅射 标签优化 极端姿态 多视角一致性

📋 核心要点

  1. 现有方法在极端姿态下人脸解析精度低,主要原因是缺乏足够标注数据,且手动标注成本高。
  2. 提出一种基于3D高斯溅射的标签优化流程,通过多视角一致性约束,从少量图像生成大量带精确标签的训练数据。
  3. 实验表明,该方法在困难姿态下显著提升人脸解析精度,且无需3D标注,性能优于现有方法。

📝 摘要(中文)

在极端视角下进行准确的人脸解析仍然是一个重大挑战,因为在这些姿态下的带标签数据有限。手动标注成本高昂且通常在规模上不切实际。我们提出了一种新颖的标签优化流程,该流程利用3D高斯溅射(3DGS)从嘈杂的多视角预测中生成准确的分割掩码。通过联合拟合两个3DGS模型,一个用于RGB图像,一个用于其初始分割图,我们的方法通过共享几何体来强制执行多视角一致性,从而能够合成具有姿态多样性的训练数据,只需最少的后处理。在此精炼数据集上微调人脸解析模型可显著提高在具有挑战性的头部姿态下的准确性,同时保持在标准视图上的强大性能。包括人工评估在内的大量实验表明,与最先进的方法相比,我们的方法实现了卓越的结果,尽管不需要ground-truth 3D注释,并且仅使用一小部分初始图像。我们的方法为提高现实世界环境中人脸解析的鲁棒性提供了一种可扩展且有效的解决方案。

🔬 方法详解

问题定义:论文旨在解决极端姿态下人脸解析精度低的问题。现有方法依赖大量标注数据,但在极端姿态下,标注数据稀缺且标注成本高昂。此外,直接训练的模型泛化能力差,难以处理未见过的姿态。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)技术,从少量带噪声的多视角人脸分割预测中,生成大量高质量、姿态多样的训练数据。通过在3D空间中建模人脸的几何结构和分割信息,并强制多视角一致性,实现标签的自动优化和精炼。

技术框架:该方法包含以下主要阶段:1) 使用现有的分割模型对少量多视角图像进行初始分割预测;2) 构建两个3DGS模型,分别用于RGB图像和初始分割图;3) 联合优化这两个3DGS模型,通过共享几何结构,强制多视角分割一致性;4) 使用优化后的3DGS模型渲染生成大量带精确标签的、姿态多样的合成数据;5) 使用合成数据微调人脸解析模型。

关键创新:该方法最重要的创新点在于利用3DGS技术进行标签优化,从而在无需3D标注的情况下,实现高质量合成数据的生成。与传统的数据增强方法相比,该方法能够生成姿态更加多样、标签更加精确的数据,从而显著提升模型的泛化能力。与直接使用3D模型进行渲染的方法相比,该方法无需精确的3D人脸模型,降低了对先验知识的依赖。

关键设计:该方法使用两个独立的3DGS模型,分别建模RGB图像和分割图。在优化过程中,通过共享几何结构(例如,高斯分布的中心位置和协方差矩阵),强制两个模型保持一致。损失函数包括渲染损失、分割损失和正则化损失,用于保证渲染图像的质量、分割的准确性和模型的平滑性。具体的参数设置(例如,高斯分布的数量、优化器的选择)需要根据具体数据集进行调整。

📊 实验亮点

实验结果表明,该方法在具有挑战性的头部姿态下显著提升了人脸解析的准确性,优于现有的state-of-the-art方法。通过人工评估,验证了该方法生成的合成数据的质量。此外,该方法仅需少量初始图像,无需3D标注,具有很高的效率和可扩展性。具体性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于人脸识别、人脸动画、虚拟现实、增强现实等领域。例如,可以用于提升在复杂光照和姿态变化下的面部识别准确率,改善虚拟化身在不同视角下的渲染效果,以及增强人机交互的自然性和鲁棒性。该方法无需大量人工标注,具有很高的实用价值和推广潜力。

📄 摘要(原文)

Accurate face parsing under extreme viewing angles remains a significant challenge due to limited labeled data in such poses. Manual annotation is costly and often impractical at scale. We propose a novel label refinement pipeline that leverages 3D Gaussian Splatting (3DGS) to generate accurate segmentation masks from noisy multiview predictions. By jointly fitting two 3DGS models, one to RGB images and one to their initial segmentation maps, our method enforces multiview consistency through shared geometry, enabling the synthesis of pose-diverse training data with only minimal post-processing. Fine-tuning a face parsing model on this refined dataset significantly improves accuracy on challenging head poses, while maintaining strong performance on standard views. Extensive experiments, including human evaluations, demonstrate that our approach achieves superior results compared to state-of-the-art methods, despite requiring no ground-truth 3D annotations and using only a small set of initial images. Our method offers a scalable and effective solution for improving face parsing robustness in real-world settings.