AI killed the video star. Audio-driven diffusion model for expressive talking head generation

作者: Baptiste Chopin, Tashvik Dhamija, Pranav Balaji, Yaohui Wang, Antitza Dantcheva

分类: cs.CV

发布日期: 2025-11-27

备注: arXiv admin note: text overlap with arXiv:2502.17198

💡 一句话要点

提出Dimitra++：一种音频驱动的扩散模型，用于生成富有表现力的说话人头部

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 说话人头部生成 音频驱动 扩散模型 Transformer 3D面部建模

📋 核心要点

现有音频驱动的说话人头部生成方法在捕捉细微的面部表情和自然的头部姿势运动方面存在不足。
Dimitra++通过引入条件运动扩散Transformer（cMDT）来建模3D面部运动序列，从而更有效地学习唇部运动、面部表情和头部姿势。
实验结果表明，Dimitra++在生成逼真的说话人头部方面显著优于现有方法，并在唇部运动、面部表情和头部姿势的表达上有所提升。

📝 摘要（中文）

本文提出Dimitra++，一种新颖的音频驱动的说话人头部生成框架，旨在学习唇部运动、面部表情以及头部姿势运动。具体而言，我们提出了一种条件运动扩散Transformer（cMDT）来建模面部运动序列，并采用3D表示。cMDT以两个输入为条件：一个参考面部图像，用于确定外观；以及一个音频序列，用于驱动运动。在两个广泛使用的数据集VoxCeleb2和CelebV-HQ上的定量和定性实验以及用户研究表明，Dimitra++在生成逼真的说话人头部方面优于现有方法，能够赋予唇部运动、面部表情和头部姿势。

🔬 方法详解

问题定义：音频驱动的说话人头部生成旨在根据给定的音频序列生成逼真的说话人头部视频。现有方法通常难以准确捕捉细微的面部表情和自然的头部姿势运动，导致生成视频的真实感不足。此外，如何有效地将音频信息融入到面部运动的建模中也是一个挑战。

核心思路：Dimitra++的核心思路是利用条件运动扩散Transformer（cMDT）来建模3D面部运动序列。扩散模型能够生成高质量的图像和视频，而Transformer架构擅长处理序列数据。通过将两者结合，cMDT能够有效地学习音频和面部运动之间的复杂关系，从而生成更逼真的说话人头部视频。采用3D表示能够更好地捕捉面部运动的细节。

技术框架：Dimitra++框架主要包含以下几个模块：1) 参考图像编码器：用于提取参考面部图像的特征；2) 音频编码器：用于提取音频序列的特征；3) 条件运动扩散Transformer（cMDT）：用于根据参考图像特征和音频特征生成3D面部运动序列；4) 渲染模块：用于将3D面部运动序列渲染成最终的说话人头部视频。cMDT是整个框架的核心，它通过扩散过程逐步生成面部运动序列，并使用Transformer架构来建模序列中的时间依赖关系。

关键创新：Dimitra++的关键创新在于提出了条件运动扩散Transformer（cMDT）。与传统的生成对抗网络（GAN）相比，扩散模型能够生成更高质量的图像和视频。与传统的循环神经网络（RNN）相比，Transformer架构能够更好地捕捉序列中的长程依赖关系。此外，使用3D表示能够更准确地建模面部运动。

关键设计：cMDT使用Transformer架构来建模面部运动序列，并使用扩散过程逐步生成序列。扩散过程包括前向扩散和反向扩散两个阶段。在前向扩散阶段，噪声逐渐添加到面部运动序列中，直到序列完全变成噪声。在反向扩散阶段，模型从噪声中逐步恢复出原始的面部运动序列。cMDT使用参考图像特征和音频特征作为条件，来指导反向扩散过程。损失函数包括重建损失和对抗损失，用于提高生成视频的质量和真实感。

📊 实验亮点

Dimitra++在VoxCeleb2和CelebV-HQ两个数据集上进行了评估，实验结果表明，Dimitra++在生成逼真的说话人头部方面优于现有方法。具体而言，Dimitra++在唇部运动、面部表情和头部姿势的表达上都有显著提升。用户研究也表明，用户更喜欢Dimitra++生成的视频，认为其更逼真、更自然。

🎯 应用场景

Dimitra++具有广泛的应用前景，包括虚拟助手、在线会议、游戏角色动画、电影特效等。它可以用于创建逼真的虚拟人物，从而改善人机交互体验。此外，Dimitra++还可以用于生成个性化的视频内容，例如根据用户的语音生成定制的说话人头部视频。未来，该技术有望应用于更多领域，例如教育、医疗等。

📄 摘要（原文）

We propose Dimitra++, a novel framework for audio-driven talking head generation, streamlined to learn lip motion, facial expression, as well as head pose motion. Specifically, we propose a conditional Motion Diffusion Transformer (cMDT) to model facial motion sequences, employing a 3D representation. The cMDT is conditioned on two inputs: a reference facial image, which determines appearance, as well as an audio sequence, which drives the motion. Quantitative and qualitative experiments, as well as a user study on two widely employed datasets, i.e., VoxCeleb2 and CelebV-HQ, suggest that Dimitra++ is able to outperform existing approaches in generating realistic talking heads imparting lip motion, facial expression, and head pose.

AI killed the video star. Audio-driven diffusion model for expressive talking head generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册