DEGSTalk: Decomposed Per-Embedding Gaussian Fields for Hair-Preserving Talking Face Synthesis

📄 arXiv: 2412.20148v1 📥 PDF

作者: Kaijun Deng, Dezhi Zheng, Jindong Xie, Jinbao Wang, Weicheng Xie, Linlin Shen, Siyang Song

分类: cs.CV, cs.HC

发布日期: 2024-12-28

备注: Accepted by ICASSP 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出DEGSTalk,一种基于3D高斯场的头发保持型说话人脸合成方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 说话人脸合成 3D高斯溅射 长发建模 人脸表情 动态渲染

📋 核心要点

  1. 现有说话人脸合成方法难以准确捕捉长发个体的精细面部特征,尤其是在面部表情变化时。
  2. DEGSTalk通过可变形预嵌入高斯场和动态头发保持肖像渲染技术,实现了更逼真的说话人脸合成。
  3. 实验表明,DEGSTalk在面部动态和头发保持方面优于现有方法,提升了合成视频的真实感和质量。

📝 摘要(中文)

本文提出了一种分解式单嵌入高斯场(DEGSTalk),这是一种基于3D高斯溅射(3DGS)的说话人脸合成方法,旨在为具有长发的个体生成逼真的说话人脸。DEGSTalk采用可变形预嵌入高斯场,利用隐式表情系数动态调整预嵌入高斯基元,从而精确捕捉动态面部区域和细微表情。此外,本文还提出了一种动态头发保持肖像渲染技术,以增强合成视频中长发运动的真实感。实验结果表明,DEGSTalk相比现有方法,在处理复杂的面部动态和头发保持方面,实现了更高的真实感和合成质量。代码将在https://github.com/CVI-SZU/DEGSTalk公开。

🔬 方法详解

问题定义:现有说话人脸合成方法在处理具有复杂发型的个体,特别是长发时,难以保持头发的自然运动和外观。此外,捕捉细微的面部表情变化并将其准确地体现在合成人脸上仍然是一个挑战。这些问题限制了合成人脸视频的真实感和实用性。

核心思路:DEGSTalk的核心思路是将3D高斯溅射(3DGS)技术与可变形的预嵌入高斯场相结合,从而实现对人脸动态和头发运动的精确建模。通过动态调整高斯基元的位置和形状,可以更好地捕捉面部表情的变化。同时,引入动态头发保持肖像渲染技术,专门处理长发的运动,使其更加自然逼真。

技术框架:DEGSTalk的整体框架包含以下几个主要模块:1) 可变形预嵌入高斯场:利用隐式表情系数动态调整预嵌入的高斯基元,捕捉面部动态。2) 动态头发保持肖像渲染:专门处理长发的运动,增强真实感。3) 3D高斯溅射渲染:将调整后的高斯基元渲染成最终的说话人脸视频。整个流程首先通过表情系数驱动高斯基元的变形,然后利用渲染技术生成最终的视频帧。

关键创新:DEGSTalk的关键创新在于以下两点:1) 提出可变形预嵌入高斯场,能够动态调整高斯基元,从而更精确地捕捉面部表情。与传统的静态高斯场相比,这种方法能够更好地适应面部动态变化。2) 引入动态头发保持肖像渲染技术,专门处理长发的运动,使其更加自然逼真。这解决了现有方法在处理长发时容易出现失真或不自然运动的问题。

关键设计:DEGSTalk的关键设计包括:1) 使用隐式表情系数来驱动高斯基元的变形,这些系数可以从音频或文本等输入中预测得到。2) 设计了一种专门的损失函数,用于优化高斯基元的形状和位置,以确保合成人脸的真实感。3) 动态头发保持肖像渲染技术采用了基于物理的建模方法,模拟头发的运动和光照效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DEGSTalk在说话人脸合成任务上取得了显著的性能提升,尤其是在处理长发和复杂面部表情时。相比于现有方法,DEGSTalk能够生成更逼真、更自然的说话人脸视频。具体性能数据(例如PSNR、SSIM等指标)和与其他基线方法的对比结果将在论文中详细展示。

🎯 应用场景

DEGSTalk技术可应用于虚拟形象生成、数字内容创作、在线教育、电影特效等领域。该技术能够生成更逼真、更自然的说话人脸视频,提升用户体验和内容质量。未来,该技术有望应用于远程会议、虚拟助手等场景,实现更具沉浸感和互动性的交流体验。

📄 摘要(原文)

Accurately synthesizing talking face videos and capturing fine facial features for individuals with long hair presents a significant challenge. To tackle these challenges in existing methods, we propose a decomposed per-embedding Gaussian fields (DEGSTalk), a 3D Gaussian Splatting (3DGS)-based talking face synthesis method for generating realistic talking faces with long hairs. Our DEGSTalk employs Deformable Pre-Embedding Gaussian Fields, which dynamically adjust pre-embedding Gaussian primitives using implicit expression coefficients. This enables precise capture of dynamic facial regions and subtle expressions. Additionally, we propose a Dynamic Hair-Preserving Portrait Rendering technique to enhance the realism of long hair motions in the synthesized videos. Results show that DEGSTalk achieves improved realism and synthesis quality compared to existing approaches, particularly in handling complex facial dynamics and hair preservation. Our code will be publicly available at https://github.com/CVI-SZU/DEGSTalk.