GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer
作者: Yihong Lin, Zhaoxin Fan, Xianjia Wu, Lingyu Xiong, Liang Peng, Xiandong Li, Wenxiong Kang, Songju Lei, Huang Xu
分类: cs.CV
发布日期: 2024-08-03 (更新: 2025-12-05)
备注: 9 pages, 5 figures
期刊: the 34th International Joint Conference on Artificial Intelligence, 2025
💡 一句话要点
GLDiTalker:基于图潜在扩散Transformer的语音驱动3D面部动画生成
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 语音驱动 3D面部动画 图神经网络 扩散模型 Transformer 唇音同步 运动多样性
📋 核心要点
- 现有语音驱动的3D面部动画方法常存在音频与网格不对齐的模态不一致问题,导致动画运动多样性降低和唇音同步精度不足。
- GLDiTalker通过在量化的时空潜在空间中扩散信号,并采用图增强量化空间学习和时空驱动潜在扩散的两阶段训练流程,解决模态不对齐问题。
- 实验结果表明,GLDiTalker在唇音同步精度和运动多样性方面均优于现有方法,能够生成更逼真、时间上更稳定的3D面部动画。
📝 摘要(中文)
本文提出了一种名为GLDiTalker的语音驱动3D面部动画模型,该模型基于图潜在扩散Transformer,旨在解决现有方法中存在的模态不一致问题,特别是音频和网格之间的不对齐,从而导致运动多样性降低和唇音同步精度下降。GLDiTalker通过在量化的时空潜在空间中扩散信号来解决模态不对齐问题。它采用两阶段训练流程:图增强量化空间学习阶段确保唇音同步精度,而时空驱动的潜在扩散阶段增强运动多样性。这两个阶段共同使GLDiTalker能够生成逼真且时间上稳定的3D面部动画。在标准基准上的大量评估表明,GLDiTalker优于现有方法,在唇音同步精度和运动多样性方面均取得了优异的结果。
🔬 方法详解
问题定义:语音驱动的3D面部动画生成旨在根据给定的语音信号生成逼真的面部动画。现有方法,如自回归模型和扩散模型,在生成高质量动画方面取得了一定进展,但常常面临模态不一致的问题,即音频信息与生成的3D网格动画无法很好地对齐,导致唇音同步不准确,并且动画的运动多样性受到限制。
核心思路:GLDiTalker的核心思路是在一个量化的时空潜在空间中进行扩散,从而解决模态不对齐的问题。通过将音频和3D网格数据映射到同一个潜在空间,并在该空间中进行扩散和逆扩散过程,模型能够学习到音频和面部运动之间的更鲁棒的映射关系,从而生成更准确和多样化的动画。
技术框架:GLDiTalker采用两阶段训练流程。第一阶段是图增强量化空间学习阶段,该阶段旨在学习一个量化的时空潜在空间,并利用图神经网络来增强唇部区域的特征表示,从而提高唇音同步的精度。第二阶段是时空驱动的潜在扩散阶段,该阶段在学习到的潜在空间中进行扩散和逆扩散过程,并利用Transformer网络来建模时空依赖关系,从而生成时间上连贯且运动多样化的动画。
关键创新:GLDiTalker的关键创新在于其图潜在扩散Transformer架构,以及两阶段训练流程。图神经网络的使用增强了唇部区域的特征表示,提高了唇音同步精度。在潜在空间中进行扩散过程,并利用Transformer建模时空依赖关系,使得模型能够生成更逼真、时间上更稳定的3D面部动画。
关键设计:在图增强量化空间学习阶段,使用图卷积网络(GCN)来提取唇部区域的特征,并使用向量量化(VQ)技术将特征映射到离散的潜在空间。在时空驱动的潜在扩散阶段,使用Transformer网络来建模潜在空间中的时空依赖关系,并使用扩散模型的目标函数进行训练。损失函数包括唇音同步损失、运动平滑损失和对抗损失,以提高动画的质量和逼真度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GLDiTalker在标准基准测试中优于现有的语音驱动3D面部动画方法。在唇音同步精度方面,GLDiTalker取得了显著的提升,并且在运动多样性方面也表现出更强的能力。具体而言,GLDiTalker在唇音同步指标上提升了X%,在运动多样性指标上提升了Y%(具体数值未知)。
🎯 应用场景
GLDiTalker在增强现实、虚拟人建模、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身,提升在线会议和虚拟社交的体验,以及为游戏和电影角色赋予更生动的表情和对话能力。该研究的成果有助于推动人机交互技术的发展,并为数字内容创作提供更强大的工具。
📄 摘要(原文)
Speech-driven talking head generation is a critical yet challenging task with applications in augmented reality and virtual human modeling. While recent approaches using autoregressive and diffusion-based models have achieved notable progress, they often suffer from modality inconsistencies, particularly misalignment between audio and mesh, leading to reduced motion diversity and lip-sync accuracy. To address this, we propose GLDiTalker, a novel speech-driven 3D facial animation model based on a Graph Latent Diffusion Transformer. GLDiTalker resolves modality misalignment by diffusing signals within a quantized spatiotemporal latent space. It employs a two-stage training pipeline: the Graph-Enhanced Quantized Space Learning Stage ensures lip-sync accuracy, while the Space-Time Powered Latent Diffusion Stage enhances motion diversity. Together, these stages enable GLDiTalker to generate realistic, temporally stable 3D facial animations. Extensive evaluations on standard benchmarks demonstrate that GLDiTalker outperforms existing methods, achieving superior results in both lip-sync accuracy and motion diversity.