Toward Fine-Grained Facial Control in 3D Talking Head Generation

📄 arXiv: 2602.09736v1 📥 PDF

作者: Shaoyang Xie, Xiaofeng Cong, Baosheng Yu, Zhipeng Gui, Jie Gui, Yuan Yan Tang, James Tin-Yau Kwok

分类: cs.CV

发布日期: 2026-02-10


💡 一句话要点

提出FG-3DGS框架,解决3D说话头生成中精细面部控制难题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D说话头生成 高斯溅射 面部控制 唇音同步 频率解耦

📋 核心要点

  1. 现有3D说话头生成方法难以精确控制面部细节,唇音同步不准确,容易产生面部抖动,导致“恐怖谷”效应。
  2. FG-3DGS框架采用频率感知解耦策略,针对面部不同区域的运动特性,分别建模低频和高频区域,提升控制精度。
  3. 实验结果表明,FG-3DGS在生成高保真、唇音同步的说话头视频方面,优于当前最先进的方法。

📝 摘要(中文)

本文提出了一种名为Fine-Grained 3D Gaussian Splatting (FG-3DGS) 的新框架,旨在实现时间一致且高保真的说话头生成。该方法引入了一种频率感知解耦策略,根据面部区域的运动特征显式地建模。低频区域(如脸颊、鼻子和前额)使用标准MLP联合建模,而高频区域(包括眼睛和嘴巴)则使用由面部区域掩码引导的专用网络单独捕获。预测的运动动态(表示为高斯增量)被应用于静态高斯,以生成最终的头部帧,这些帧通过使用帧特定相机参数的光栅化器进行渲染。此外,还结合了一种高频精细化的后渲染对齐机制,该机制通过预训练模型从大规模音频-视频对中学习,以增强每帧生成并实现更准确的唇部同步。在广泛使用的说话头生成数据集上的大量实验表明,我们的方法在生成高保真、唇音同步的说话头视频方面优于最近的state-of-the-art方法。

🔬 方法详解

问题定义:现有3D说话头生成方法在精细面部控制方面存在不足,尤其是在唇音同步的准确性和面部运动的稳定性上。这些问题会导致生成的人物不够自然,容易产生“恐怖谷”效应,降低用户体验。现有方法难以有效区分和处理面部不同区域的运动特性,导致整体效果不佳。

核心思路:FG-3DGS的核心思路是根据面部区域的运动频率特性进行解耦建模。将面部分为低频区域(如脸颊、鼻子、前额)和高频区域(如眼睛、嘴巴),分别使用不同的网络结构进行建模。这种方法能够更精确地捕捉不同区域的运动细节,从而提高整体的生成质量和控制精度。

技术框架:FG-3DGS框架主要包含以下几个模块:1) 频率感知解耦模块:将面部分为低频和高频区域,并分别使用不同的网络进行建模。2) 运动动态预测模块:预测每个高斯分布的运动增量,用于更新静态高斯分布。3) 渲染模块:使用光栅化器渲染生成最终的头部帧,并结合帧特定的相机参数。4) 后渲染对齐模块:使用预训练模型对每帧进行高频精细化处理,以增强唇音同步的准确性。

关键创新:FG-3DGS的关键创新在于频率感知解耦策略。通过显式地建模面部不同区域的运动特性,能够更精确地控制面部细节,从而提高生成质量。此外,后渲染对齐机制进一步增强了唇音同步的准确性。

关键设计:低频区域使用标准MLP进行建模,高频区域使用专用网络,并由面部区域掩码引导。运动动态预测模块输出高斯增量,用于更新静态高斯分布。后渲染对齐模块使用大规模音频-视频对进行训练,以学习高频细节的映射关系。损失函数的设计也至关重要,需要平衡不同区域的重建误差和运动平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FG-3DGS在多个公开数据集上取得了显著的性能提升,尤其是在唇音同步的准确性和面部运动的自然度方面。相较于现有state-of-the-art方法,FG-3DGS能够生成更高保真、更逼真的说话头视频,有效缓解了“恐怖谷”效应。

🎯 应用场景

该研究成果可广泛应用于数字人、虚拟主播、在线教育、游戏开发等领域。通过更精确的面部控制和唇音同步,可以生成更逼真、更自然的虚拟人物,提升用户体验。未来,该技术有望应用于个性化定制、情感表达等更高级的应用场景。

📄 摘要(原文)

Audio-driven talking head generation is a core component of digital avatars, and 3D Gaussian Splatting has shown strong performance in real-time rendering of high-fidelity talking heads. However, achieving precise control over fine-grained facial movements remains a significant challenge, particularly due to lip-synchronization inaccuracies and facial jitter, both of which can contribute to the uncanny valley effect. To address these challenges, we propose Fine-Grained 3D Gaussian Splatting (FG-3DGS), a novel framework that enables temporally consistent and high-fidelity talking head generation. Our method introduces a frequency-aware disentanglement strategy to explicitly model facial regions based on their motion characteristics. Low-frequency regions, such as the cheeks, nose, and forehead, are jointly modeled using a standard MLP, while high-frequency regions, including the eyes and mouth, are captured separately using a dedicated network guided by facial area masks. The predicted motion dynamics, represented as Gaussian deltas, are applied to the static Gaussians to generate the final head frames, which are rendered via a rasterizer using frame-specific camera parameters. Additionally, a high-frequency-refined post-rendering alignment mechanism, learned from large-scale audio-video pairs by a pretrained model, is incorporated to enhance per-frame generation and achieve more accurate lip synchronization. Extensive experiments on widely used datasets for talking head generation demonstrate that our method outperforms recent state-of-the-art approaches in producing high-fidelity, lip-synced talking head videos.