SDTalk: Structured Facial Priors and Dual-Branch Motion Fields for Generalizable Gaussian Talking Head Synthesis
作者: Peng Jia, Zhen Xiao, Jia Li, Xueliang Liu, Zhenzhen Hu, Lingyun Yu
分类: cs.CV, cs.AI
发布日期: 2026-05-11
备注: 5 pages, 4 figures, 4 tables
💡 一句话要点
提出SDTalk框架,利用结构化面部先验与双分支运动场实现通用化3D高斯溅射人脸合成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 人脸合成 零样本泛化 运动场建模 计算机视觉 数字人
📋 核心要点
- 现有方法多依赖特定身份的训练,导致跨身份泛化能力差,且难以在保持高质量的同时实现实时推理。
- 提出SDTalk框架,通过结构化面部先验实现单样本完整头部重建,并利用双分支运动场建模面部动态。
- 实验证明,该方法在视觉质量和唇形同步精度上超越现有基线,且具备高效的推理性能。
📝 摘要(中文)
高质量、实时的人脸合成仍是计算机视觉领域的核心挑战。现有的基于重建和渲染的方法通常依赖于特定身份的模型,限制了跨身份的泛化能力。为解决这一问题,本文提出了SDTalk,这是一个基于单样本3D高斯溅射(3DGS)的框架,无需个性化训练或微调即可泛化至未见过的身份。该框架包含两个模块及两阶段训练策略。在第一阶段,我们将结构化面部先验融入重建模块,并分别预测可见区域和遮挡区域的3DGS参数,从而实现从单张图像进行完整头部重建。在第二阶段,引入双分支运动场来建模粗粒度和细粒度的面部动态,提升了细节保真度和唇形同步效果。实验表明,SDTalk在视觉质量和推理效率上均优于现有方法。
🔬 方法详解
问题定义:论文旨在解决现有Talking Head合成方法对特定身份的强依赖性问题。传统方法通常需要针对每个目标人物进行长时间的个性化训练或微调,难以实现“一次训练,通用推理”的泛化目标,且在处理遮挡区域时重建效果不佳。
核心思路:引入3D高斯溅射(3DGS)作为核心渲染引擎,通过引入结构化面部先验(Structured Facial Priors)来解耦身份与动态,并利用双分支运动场(Dual-Branch Motion Fields)分别捕捉全局头部姿态与局部精细表情,从而实现对任意身份的零样本泛化。
技术框架:框架分为两个阶段:第一阶段为重建模块,利用结构化先验从单张图像推断3DGS参数,并显式处理可见与遮挡区域;第二阶段为动态建模,通过双分支网络学习驱动信号到3DGS形变的映射,实现高质量的动态合成。
关键创新:核心创新在于将结构化先验引入3DGS,解决了单图重建中的遮挡补全问题;同时,双分支运动场设计有效分离了粗粒度头部运动与细粒度唇部/表情动态,显著提升了合成的保真度。
关键设计:采用了两阶段训练策略,先优化静态几何结构,再优化动态运动场。通过对可见与遮挡区域的参数化预测,确保了头部重建的完整性,并利用运动场对高斯点的位置和旋转进行偏移建模,以实现精准的表情驱动。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SDTalk在视觉质量(如PSNR、SSIM指标)和唇形同步精度(LSE-D/LSE-C指标)上均显著优于现有的One-shot方法。得益于3DGS的高效渲染特性,该框架在保持高保真度的同时,实现了优于传统NeRF类方法的推理速度,验证了其在实时应用中的可行性。
🎯 应用场景
该技术在数字人生成、虚拟主播、远程视频会议、电影后期制作及游戏角色动画等领域具有广阔应用前景。其无需个性化训练的特性,极大降低了高质量数字人制作的门槛,能够实现实时、低延迟的交互式人脸驱动,对提升虚拟社交与娱乐体验具有重要价值。
📄 摘要(原文)
High-quality, real-time talking head synthesis remains a fundamental challenge in computer vision. Existing reconstruction- and rendering-based methods typically rely on identity-specific models, limiting cross-identity generalization. To address this issue, we propose SDTalk, a one-shot 3D Gaussian Splatting (3DGS)-based framework that generalizes to unseen identities without personalized training or fine-tuning. Our framework comprises two modules with a two-stage training strategy. In the first stage, we incorporate structured facial priors into the reconstruction module and separately predict 3DGS parameters for visible and occluded regions, enabling complete head reconstruction from a single image. In the second stage, we introduce a dual-branch motion field to model coarse and fine facial dynamics, improving detail fidelity and lip synchronization. Experiments demonstrate that SDTalk surpasses existing methods in both visual quality and inference efficiency.