DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures

📄 arXiv: 2409.07649v1 📥 PDF

作者: Steven Hogue, Chenxu Zhang, Hamza Daruger, Yapeng Tian, Xiaohu Guo

分类: cs.CV

发布日期: 2024-09-11


💡 一句话要点

DiffTED:基于扩散模型的单样本音频驱动TED演讲视频生成,实现自然口型和丰富肢体动作

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 音频驱动 视频生成 扩散模型 关键点检测 Thin-Plate Spline 口型同步 肢体动作

📋 核心要点

  1. 现有音频驱动的说话视频生成方法在动作连贯性和多样性方面存在不足,且头部和肢体动作生成分离。
  2. DiffTED利用扩散模型生成关键点序列,驱动Thin-Plate Spline运动模型,实现精确且连贯的化身动画。
  3. DiffTED采用无分类器指导,使手势自然地与音频同步,实验证明其生成视频具有更好的时间连贯性和动作多样性。

📝 摘要(中文)

本文提出了一种名为DiffTED的新方法,用于从单张图像生成音频驱动的TED风格演讲视频。现有方法通常依赖于视频到视频的转换技术和GAN等传统生成网络,并且通常将头部动作和口型与肢体动作分开生成,导致输出不够连贯。此外,这些方法生成的动作往往过于平滑或柔和,缺乏多样性,并且许多以动作为中心的方法没有整合头部生成。为了解决这些限制,DiffTED利用扩散模型生成Thin-Plate Spline运动模型的关键点序列,精确控制化身的动画,同时确保时间上连贯和多样的手势。这种创新方法利用无分类器指导,使手势能够自然地随着音频输入流动,而无需依赖预训练的分类器。实验表明,DiffTED生成具有时间连贯性和多样化口语手势的演讲视频。

🔬 方法详解

问题定义:现有音频驱动的说话视频生成方法存在以下痛点:一是生成的头部和肢体动作不够连贯,通常是分开生成再进行拼接;二是生成的肢体动作缺乏多样性,显得过于平滑和僵硬;三是很多方法依赖GAN等传统生成模型,训练不稳定,生成质量受限。因此,需要一种能够生成时间连贯、动作自然且多样化的音频驱动说话视频生成方法。

核心思路:DiffTED的核心思路是利用扩散模型强大的生成能力,直接生成控制说话人动作的关键点序列。这些关键点序列能够驱动Thin-Plate Spline (TPS) 运动模型,从而控制说话人的头部和肢体动作。通过扩散模型,可以生成更加多样化和自然的动作,同时TPS运动模型保证了动作的时间连贯性。

技术框架:DiffTED的整体框架包括以下几个主要模块:1) 音频特征提取模块:提取输入音频的特征表示。2) 扩散模型:基于音频特征,生成关键点序列。3) Thin-Plate Spline (TPS) 运动模型:利用生成的关键点序列,对输入的单张人脸图像进行变形,生成说话人的动画序列。4) 渲染模块:将变形后的图像序列渲染成最终的说话视频。

关键创新:DiffTED最重要的技术创新点在于使用扩散模型直接生成关键点序列,而不是像传统方法那样生成图像或视频。这种方法能够更好地控制说话人的动作,并且可以生成更加多样化和自然的动作。此外,DiffTED还采用了无分类器指导,使得生成的动作能够更好地与音频同步。

关键设计:DiffTED的关键设计包括:1) 扩散模型的网络结构:采用U-Net结构,并加入注意力机制,以更好地捕捉音频和关键点之间的关系。2) 损失函数:采用L1损失和感知损失,以保证生成图像的质量。3) 无分类器指导:通过控制指导强度,平衡生成的多样性和与音频的同步性。4) TPS运动模型的参数设置:选择合适的控制点数量和位置,以保证变形的准确性和自然性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiffTED通过扩散模型生成高质量的音频驱动说话视频,在动作连贯性和多样性方面优于现有方法。实验结果表明,DiffTED生成的视频具有更自然的口型和更丰富的肢体动作,能够更好地表达音频的内容。虽然论文中没有提供具体的量化指标,但通过视觉效果对比,DiffTED在生成质量上具有显著优势。

🎯 应用场景

DiffTED具有广泛的应用前景,例如:在线教育、虚拟主播、数字人生成、视频会议等。它可以根据给定的音频和单张人脸图像,快速生成逼真的说话视频,降低了视频制作的成本和门槛。未来,DiffTED可以进一步扩展到更多场景,例如:生成具有复杂表情和动作的虚拟角色,或者根据文本生成说话视频。

📄 摘要(原文)

Audio-driven talking video generation has advanced significantly, but existing methods often depend on video-to-video translation techniques and traditional generative networks like GANs and they typically generate taking heads and co-speech gestures separately, leading to less coherent outputs. Furthermore, the gestures produced by these methods often appear overly smooth or subdued, lacking in diversity, and many gesture-centric approaches do not integrate talking head generation. To address these limitations, we introduce DiffTED, a new approach for one-shot audio-driven TED-style talking video generation from a single image. Specifically, we leverage a diffusion model to generate sequences of keypoints for a Thin-Plate Spline motion model, precisely controlling the avatar's animation while ensuring temporally coherent and diverse gestures. This innovative approach utilizes classifier-free guidance, empowering the gestures to flow naturally with the audio input without relying on pre-trained classifiers. Experiments demonstrate that DiffTED generates temporally coherent talking videos with diverse co-speech gestures.