GazeGaussian: High-Fidelity Gaze Redirection with 3D Gaussian Splatting
作者: Xiaobao Wei, Peng Chen, Guangyu Li, Ming Lu, Hui Chen, Feng Tian
分类: cs.CV
发布日期: 2024-11-20 (更新: 2025-07-09)
备注: Accepted by ICCV2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
GazeGaussian:基于3D高斯溅射的高保真视线重定向
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视线重定向 3D高斯溅射 神经渲染 人脸合成 表情引导
📋 核心要点
- 现有基于NeRF的视线重定向方法计算量大,且难以捕捉精细的面部细节,限制了其应用。
- GazeGaussian提出一种双流3DGS模型,分别表示面部和眼睛区域,实现更精确的视线控制。
- 通过表情引导模块,GazeGaussian能够注入主体特定信息,提升跨主体的泛化能力,并在多个数据集上取得优异表现。
📝 摘要(中文)
视线估计在处理分布外数据时面临泛化挑战。为了解决这个问题,最近的方法使用神经辐射场(NeRF)来生成增强数据。然而,现有的基于NeRF的方法计算成本高昂且缺乏面部细节。3D高斯溅射(3DGS)已成为神经场的主流表示方法。虽然3DGS在头部化身中得到了广泛的应用,但它在精确的视线控制和跨不同主体的泛化方面面临挑战。在这项工作中,我们提出了GazeGaussian,这是第一个使用双流3DGS模型分别表示面部和眼睛区域的高保真视线重定向方法。利用3DGS的非结构化特性,我们为基于目标视线方向的刚性眼睛旋转开发了一种新的眼睛表示方法。为了实现跨各种主体的合成泛化,我们集成了一个表情引导模块,将特定于主体的信息注入到神经渲染器中。综合实验表明,GazeGaussian在渲染速度、视线重定向精度和跨多个数据集的面部合成方面优于现有方法。
🔬 方法详解
问题定义:现有的视线重定向方法,特别是基于NeRF的方法,在计算效率和面部细节的保真度上存在不足。此外,这些方法在跨不同个体进行泛化时表现不佳,难以适应不同人脸的特征。因此,需要一种能够高效渲染、保持面部细节,并具有良好泛化能力的视线重定向方法。
核心思路:GazeGaussian的核心思路是利用3D高斯溅射(3DGS)的高效渲染能力和对细节的良好表达能力,并针对视线重定向任务进行优化。通过将面部和眼睛区域分别建模,并引入表情引导模块,实现精确的视线控制和跨个体泛化。
技术框架:GazeGaussian采用双流3DGS模型,包含面部3DGS流和眼睛3DGS流。面部3DGS流负责渲染整体面部,眼睛3DGS流负责精确控制眼睛的视线方向。表情引导模块将个体特定的表情信息注入到神经渲染器中,以提高跨个体泛化能力。整体流程包括:输入图像,提取面部和眼睛区域,分别使用3DGS进行建模,根据目标视线方向调整眼睛3DGS,最后将两个流的结果融合渲染得到最终图像。
关键创新:GazeGaussian的关键创新在于以下几点:1) 提出双流3DGS模型,分别处理面部和眼睛区域,实现更精细的控制;2) 设计了一种基于3DGS的眼睛表示方法,能够根据目标视线方向进行刚性旋转;3) 引入表情引导模块,将个体特定的信息融入渲染过程,提升跨个体泛化能力。与现有方法相比,GazeGaussian在渲染速度、视线重定向精度和面部合成质量上都有显著提升。
关键设计:眼睛的3DGS表示方法是关键设计之一,它允许基于目标视线方向进行精确的刚性旋转。表情引导模块的具体实现方式(例如,使用编码器提取表情特征,并将其作为条件输入到渲染器中)以及损失函数的设计(例如,使用L1损失、感知损失等来保证渲染质量)也是重要的技术细节。此外,双流3DGS的融合方式也需要仔细设计,以避免出现伪影。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GazeGaussian在渲染速度上显著优于基于NeRF的方法,同时在视线重定向精度和面部合成质量上均超越了现有技术。具体而言,GazeGaussian在多个数据集上实现了更高的PSNR、SSIM和LPIPS指标,证明了其优越的性能。论文提供的代码和数据集也为后续研究提供了便利。
🎯 应用场景
GazeGaussian具有广泛的应用前景,包括虚拟现实/增强现实(VR/AR)、视频会议、游戏、虚拟化身定制等领域。它可以用于创建更逼真、更具表现力的虚拟角色,提升用户在虚拟环境中的交互体验。此外,该技术还可以应用于眼动追踪研究、人机交互等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Gaze estimation encounters generalization challenges when dealing with out-of-distribution data. To address this problem, recent methods use neural radiance fields (NeRF) to generate augmented data. However, existing methods based on NeRF are computationally expensive and lack facial details. 3D Gaussian Splatting (3DGS) has become the prevailing representation of neural fields. While 3DGS has been extensively examined in head avatars, it faces challenges with accurate gaze control and generalization across different subjects. In this work, we propose GazeGaussian, the first high-fidelity gaze redirection method that uses a two-stream 3DGS model to represent the face and eye regions separately. Leveraging the unstructured nature of 3DGS, we develop a novel representation of the eye for rigid eye rotation based on the target gaze direction. To enable synthesis generalization across various subjects, we integrate an expression-guided module to inject subject-specific information into the neural renderer. Comprehensive experiments show that GazeGaussian outperforms existing methods in rendering speed, gaze redirection accuracy, and facial synthesis across multiple datasets. The code is available at: https://ucwxb.github.io/GazeGaussian.