Using Gaussian Splats to Create High-Fidelity Facial Geometry and Texture

📄 arXiv: 2512.16397v1 📥 PDF

作者: Haodi He, Jihun Yu, Ronald Fedkiw

分类: cs.CV, cs.AI, cs.GR

发布日期: 2025-12-18

备注: Submitted to CVPR 2026. 21 pages, 22 figures


💡 一句话要点

利用高斯溅射重建高保真面部几何与纹理,实现可控人脸生成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 人脸重建 神经渲染 纹理生成 三维建模

📋 核心要点

  1. 现有方法难以从少量未校准图像中重建高保真人脸几何与纹理,尤其是在光照条件不一致的情况下。
  2. 利用高斯溅射的显式特性,结合语义分割和表面约束,实现从少量图像中重建高质量人脸模型。
  3. 通过实验验证,该方法在人脸重建精度和纹理质量上均有提升,并展示了在文本驱动资产生成中的应用。

📝 摘要(中文)

本文利用日益流行的三维神经表示,从一组未经校准的人脸图像中构建统一且一致的解释。该方法采用高斯溅射,因为它比NeRF更显式,因此更易于约束。利用分割标注对齐面部的语义区域,从而仅用11张图像即可重建中性姿势(而不需要长视频)。软约束高斯分布到一个潜在的三角化表面,以提供更结构化的重建,进而指导后续扰动以提高三角化表面的精度。生成的三角化表面可以在标准图形渲染管线中使用。此外,也是最重要的,展示了精确的几何体如何使高斯溅射转换为纹理空间,并被视为与视角相关的神经纹理。这允许在场景中的任何资产上使用高视觉保真度的高斯溅射,而无需修改任何其他资产或图形渲染管线的任何其他方面(几何体、光照、渲染器等)。利用可重新光照的高斯模型将纹理与光照分离,以获得可用于标准图形渲染管线中的高分辨率反照率纹理。系统的灵活性允许使用不同的图像进行训练,即使光照不兼容,也有助于鲁棒的正则化。最后,通过展示其在文本驱动的资产创建管线中的应用,证明了该方法的有效性。

🔬 方法详解

问题定义:论文旨在解决从少量未校准的人脸图像中重建高保真三维人脸几何和纹理的问题。现有方法,如NeRF,通常需要大量的训练数据(例如,长视频)才能获得较好的效果,并且对光照变化敏感。此外,将神经表示集成到现有图形渲染管线中也存在挑战。

核心思路:论文的核心思路是利用高斯溅射(Gaussian Splatting)的显式特性,结合人脸语义分割信息和几何约束,从而在少量图像下实现高质量的人脸重建。通过将高斯溅射转换为纹理空间,可以方便地将其集成到现有的图形渲染管线中,并实现与视角相关的神经纹理效果。

技术框架:该方法主要包含以下几个阶段:1) 使用少量未校准的人脸图像作为输入;2) 利用人脸语义分割标注对齐不同图像中的面部区域;3) 使用高斯溅射表示人脸,并软约束高斯分布到一个潜在的三角化表面;4) 通过优化高斯参数和三角化表面,提高重建精度;5) 将高斯溅射转换为纹理空间,得到与视角相关的神经纹理;6) 使用可重新光照的高斯模型解耦纹理和光照,得到高分辨率反照率纹理。

关键创新:该方法的关键创新在于:1) 利用高斯溅射的显式特性,使其更易于约束和优化;2) 结合人脸语义分割信息和几何约束,显著减少了重建所需的数据量;3) 将高斯溅射转换为纹理空间,实现了与现有图形渲染管线的无缝集成;4) 提出了一种可重新光照的高斯模型,用于解耦纹理和光照。

关键设计:论文中关键的设计包括:1) 使用软约束将高斯分布约束到三角化表面,以提高重建的结构性;2) 设计了损失函数,用于优化高斯参数和三角化表面;3) 采用了可重新光照的高斯模型,该模型将高斯颜色分解为反照率和光照分量,从而实现纹理与光照的解耦;4) 利用分割标注对齐面部的语义区域,从而仅用11张图像即可重建中性姿势。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法仅使用11张未校准的人脸图像即可重建高质量的三维人脸模型,显著减少了数据需求。通过将高斯溅射转换为纹理空间,实现了与现有图形渲染管线的无缝集成,并获得了高视觉保真度的渲染效果。此外,该方法还展示了在文本驱动的资产创建管线中的应用,证明了其在实际应用中的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、数字人生成等领域。通过该方法,可以快速创建逼真且可控的人脸模型,为用户提供更沉浸式的体验。此外,该技术还可以用于人脸识别、表情迁移等应用,具有广泛的应用前景。

📄 摘要(原文)

We leverage increasingly popular three-dimensional neural representations in order to construct a unified and consistent explanation of a collection of uncalibrated images of the human face. Our approach utilizes Gaussian Splatting, since it is more explicit and thus more amenable to constraints than NeRFs. We leverage segmentation annotations to align the semantic regions of the face, facilitating the reconstruction of a neutral pose from only 11 images (as opposed to requiring a long video). We soft constrain the Gaussians to an underlying triangulated surface in order to provide a more structured Gaussian Splat reconstruction, which in turn informs subsequent perturbations to increase the accuracy of the underlying triangulated surface. The resulting triangulated surface can then be used in a standard graphics pipeline. In addition, and perhaps most impactful, we show how accurate geometry enables the Gaussian Splats to be transformed into texture space where they can be treated as a view-dependent neural texture. This allows one to use high visual fidelity Gaussian Splatting on any asset in a scene without the need to modify any other asset or any other aspect (geometry, lighting, renderer, etc.) of the graphics pipeline. We utilize a relightable Gaussian model to disentangle texture from lighting in order to obtain a delit high-resolution albedo texture that is also readily usable in a standard graphics pipeline. The flexibility of our system allows for training with disparate images, even with incompatible lighting, facilitating robust regularization. Finally, we demonstrate the efficacy of our approach by illustrating its use in a text-driven asset creation pipeline.