Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis

📄 arXiv: 2503.22605v2 📥 PDF

作者: Shuai Shen, Wanhua Li, Yunpeng Zhang, Yap-Peng Tan, Jiwen Lu

分类: cs.GR, cs.CV, cs.SD, eess.AS

发布日期: 2025-03-28 (更新: 2025-06-27)

备注: Demo video at \url{https://sstzal.github.io/Audio-Plane/}


💡 一句话要点

提出Audio-Plane,结合高斯溅射实现高质量、实时语音驱动的头部合成。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 头部合成 高斯溅射 音频驱动 实时渲染 音频分解平面

📋 核心要点

  1. 现有头部合成方法难以兼顾生成质量和计算效率,尤其是在实时性要求下。
  2. 提出Audio-Plane,将4D体积分解为音频无关的空间平面和音频相关的平面,实现高效的音频感知空间编码。
  3. 引入音频引导的显著性溅射机制,自适应强调嘴部等动态区域,提升语音驱动动画的准确性。

📝 摘要(中文)

本文提出了一种新颖的框架,该框架将高斯溅射与结构化的音频分解平面(Audio-Plane)相结合,以实现高质量、音频同步和实时的头部合成。为了对动态头部进行建模,通常需要一个4D体积表示,该表示由3D空间中的三个轴和一个与音频进展对齐的时间轴组成。然而,由于高内存和计算成本,以及对于更长时间的缺乏可扩展性,直接存储和处理密集的4D网格是不切实际的。我们通过将4D体积表示分解为一组音频独立的 spatial planes 和音频相关的 planes 来解决这个挑战,形成一个紧凑且可解释的头部建模表示,我们称之为 Audio-Plane。这种分解设计允许高效和细粒度的音频感知空间编码,并显著增强了模型捕获由语音信号驱动的复杂唇部动态的能力。为了进一步改进特定区域的运动建模,我们引入了一种基于区域感知调制的音频引导的显著性溅射机制,该机制自适应地强调高度动态的区域,例如嘴部区域。这使得模型能够将其学习能力集中在对于准确的语音驱动动画最重要的位置。在自驱动和交叉驱动设置下进行的大量实验表明,我们的方法实现了最先进的视觉质量、精确的音频-唇部同步和实时性能,优于之前的基于2D和3D的范例。

🔬 方法详解

问题定义:论文旨在解决高质量、音频同步且实时的头部合成问题。现有方法通常难以在生成质量和计算效率之间取得平衡,特别是对于需要实时渲染的应用场景,直接使用4D体积表示进行建模会带来巨大的内存和计算开销,难以扩展到更长的音频序列。

核心思路:论文的核心思路是将4D体积表示分解为音频无关的空间平面和音频相关的平面,从而降低计算复杂度并提高模型的可解释性。这种分解方式使得模型能够更有效地学习音频和头部运动之间的关系,并专注于对头部运动影响最大的区域。

技术框架:该方法的核心是Audio-Plane,它由以下几个主要部分组成:1) 将4D体积分解为音频无关的空间平面和音频相关的平面;2) 使用高斯溅射进行渲染,实现高质量的图像生成;3) 引入音频引导的显著性溅射机制,自适应地调整不同区域的权重,从而提高模型对关键区域的关注度。整体流程是:输入音频信号,通过Audio-Plane生成头部运动参数,然后使用高斯溅射渲染出最终的图像。

关键创新:该方法最重要的创新点在于Audio-Plane的分解表示,它将复杂的4D体积分解为更易于处理的2D平面,并区分了音频相关和音频无关的信息。这种分解方式不仅降低了计算复杂度,还提高了模型的可解释性,使得我们可以更好地理解音频和头部运动之间的关系。此外,音频引导的显著性溅射机制也是一个重要的创新,它可以自适应地调整不同区域的权重,从而提高模型对关键区域的关注度。

关键设计:Audio-Plane的具体实现细节包括:使用多层感知机(MLP)对音频特征进行编码,生成音频相关的平面参数;使用高斯函数对空间平面进行编码;使用注意力机制实现音频引导的显著性溅射。损失函数包括重建损失、音频同步损失和正则化损失。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在视觉质量、音频-唇部同步性和实时性能方面均优于现有方法。在自驱动和交叉驱动设置下,该方法均取得了state-of-the-art的结果。与之前的基于2D和3D的范例相比,该方法在视觉质量和实时性方面均有显著提升。具体的数据指标和对比结果可以在论文的实验部分找到。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、视频会议、游戏开发等领域。例如,可以用于创建逼真的虚拟化身,实现更自然的远程交流体验,或者用于开发更具表现力的游戏角色。此外,该技术还可以用于语音助手、智能客服等应用中,提升用户交互的自然度和趣味性。未来,该技术有望进一步发展,实现更高质量、更个性化的头部合成。

📄 摘要(原文)

Talking head synthesis has emerged as a prominent research topic in computer graphics and multimedia, yet most existing methods often struggle to strike a balance between generation quality and computational efficiency, particularly under real-time constraints. In this paper, we propose a novel framework that integrates Gaussian Splatting with a structured Audio Factorization Plane (Audio-Plane) to enable high-quality, audio-synchronized, and real-time talking head generation. For modeling a dynamic talking head, a 4D volume representation, which consists of three axes in 3D space and one temporal axis aligned with audio progression, is typically required. However, directly storing and processing a dense 4D grid is impractical due to the high memory and computation cost, and lack of scalability for longer durations. We address this challenge by decomposing the 4D volume representation into a set of audio-independent spatial planes and audio-dependent planes, forming a compact and interpretable representation for talking head modeling that we refer to as the Audio-Plane. This factorized design allows for efficient and fine-grained audio-aware spatial encoding, and significantly enhances the model's ability to capture complex lip dynamics driven by speech signals. To further improve region-specific motion modeling, we introduce an audio-guided saliency splatting mechanism based on region-aware modulation, which adaptively emphasizes highly dynamic regions such as the mouth area. This allows the model to focus its learning capacity on where it matters most for accurate speech-driven animation. Extensive experiments on both the self-driven and the cross-driven settings demonstrate that our method achieves state-of-the-art visual quality, precise audio-lip synchronization, and real-time performance, outperforming prior approaches across both 2D- and 3D-based paradigms.