GaussianHeadTalk: Wobble-Free 3D Talking Heads with Audio Driven Gaussian Splatting

📄 arXiv: 2512.10939v1 📥 PDF

作者: Madhav Agarwal, Mingtian Zhang, Laura Sevilla-Lara, Steven McDonagh

分类: cs.CV

发布日期: 2025-12-11

备注: IEEE/CVF Winter Conference on Applications of Computer Vision 2026


💡 一句话要点

提出GaussianHeadTalk,利用音频驱动高斯溅射生成无抖动3D说话头

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 说话头 高斯溅射 3D形变模型 音频驱动 实时渲染

📋 核心要点

  1. 现有说话头方法在视觉逼真度和时间稳定性之间存在trade-off,高斯溅射方法易受面部跟踪误差影响。
  2. GaussianHeadTalk利用3D形变模型映射高斯溅射,并使用Transformer从音频预测模型参数,保证时间一致性。
  3. 该方法仅需单目视频和音频输入,即可生成实时、稳定的说话头视频,并在定量和定性评估中表现出色。

📝 摘要(中文)

语音驱动的说话头技术近年来兴起,实现了交互式化身。然而,现有方法虽然视觉效果逼真,但速度慢,或者速度快但时间稳定性差,限制了实际应用。扩散模型虽然能生成逼真的图像,但在单样本设置中表现不佳。高斯溅射方法是实时的,但面部跟踪不准确或高斯映射不一致会导致输出不稳定和视频伪影,不利于实际应用。本文通过使用3D形变模型映射高斯溅射来生成特定人物的化身,从而解决了这个问题。我们引入了基于Transformer的模型参数预测,直接从音频驱动时间一致性。从单目视频和独立的音频语音输入,我们的方法能够生成实时的说话头视频,并报告了具有竞争力的定量和定性性能。

🔬 方法详解

问题定义:现有语音驱动的说话头方法要么依赖于计算量大的扩散模型,难以实时生成;要么基于高斯溅射,但容易受到面部跟踪误差和高斯映射不一致的影响,导致视频输出出现抖动和伪影,影响用户体验。因此,需要一种既能保证实时性,又能生成稳定、高质量说话头视频的方法。

核心思路:本文的核心思路是将3D形变模型(3DMM)与高斯溅射相结合。3DMM提供了一个参数化的面部模型,可以有效地约束高斯溅射的形变,从而减少抖动。同时,利用Transformer网络直接从音频预测3DMM参数,实现音频驱动的面部动画,并保证时间一致性。

技术框架:GaussianHeadTalk的整体框架包括以下几个主要阶段:1) 使用单目视频重建特定人物的3DMM模型;2) 使用Transformer网络从音频中预测3DMM参数;3) 将预测的3DMM参数映射到高斯溅射的形变;4) 使用高斯溅射渲染最终的说话头视频。

关键创新:该方法最重要的创新点在于将3DMM作为高斯溅射的先验约束,从而有效地解决了高斯溅射在说话头应用中容易出现抖动的问题。此外,使用Transformer直接从音频预测3DMM参数,避免了中间表示的引入,简化了流程,并提高了时间一致性。

关键设计:在Transformer网络的设计上,采用了多层Transformer编码器-解码器结构,以捕捉音频中的长时依赖关系。损失函数包括3DMM参数预测损失、渲染损失和正则化损失,以保证预测的准确性和渲染的质量。此外,还使用了时间平滑技术,进一步减少视频中的抖动。

📊 实验亮点

实验结果表明,GaussianHeadTalk在生成高质量、稳定的说话头视频方面取得了显著的成果。与现有方法相比,该方法在视觉质量和时间稳定性方面均有提升,并且能够实现实时渲染。定量评估结果显示,该方法在多个指标上均优于对比基线。

🎯 应用场景

该研究成果可广泛应用于虚拟会议、游戏、虚拟主播、个性化教育等领域。用户可以通过简单的音频输入,生成逼真的、个性化的说话头视频,实现更自然、更具表现力的交流。未来,该技术有望进一步发展,实现更高级的面部表情控制和更逼真的渲染效果。

📄 摘要(原文)

Speech-driven talking heads have recently emerged and enable interactive avatars. However, real-world applications are limited, as current methods achieve high visual fidelity but slow or fast yet temporally unstable. Diffusion methods provide realistic image generation, yet struggle with oneshot settings. Gaussian Splatting approaches are real-time, yet inaccuracies in facial tracking, or inconsistent Gaussian mappings, lead to unstable outputs and video artifacts that are detrimental to realistic use cases. We address this problem by mapping Gaussian Splatting using 3D Morphable Models to generate person-specific avatars. We introduce transformer-based prediction of model parameters, directly from audio, to drive temporal consistency. From monocular video and independent audio speech inputs, our method enables generation of real-time talking head videos where we report competitive quantitative and qualitative performance.