JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation

📄 arXiv: 2411.09209v4 📥 PDF

作者: Xuyang Cao, Guoxin Wang, Sheng Shi, Jun Zhao, Yang Yao, Jintao Fei, Minyu Gao

分类: cs.CV

发布日期: 2024-11-14 (更新: 2024-11-28)

🔗 代码/项目: GITHUB


💡 一句话要点

JoyVASA:提出基于解耦表示和扩散模型的音视频驱动人像及动物图像动画生成方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 音频驱动动画 扩散模型 面部动画 解耦表示 人像动画 动物动画 多语言支持 Transformer

📋 核心要点

  1. 现有音频驱动人像动画模型复杂度高,训练推理效率低,限制了视频长度和帧间连续性。
  2. JoyVASA通过解耦面部表示,将动态表情与静态3D人脸分离,并使用扩散模型生成与身份无关的运动序列。
  3. 实验结果表明,该方法不仅能生成高质量人像动画,还能扩展到动物面部动画,并支持多语言。

📝 摘要(中文)

音频驱动的人像动画随着基于扩散模型的发展取得了显著进展,提高了视频质量和唇形同步的准确性。然而,这些模型日益复杂,导致训练和推理效率低下,并限制了视频长度和帧间连续性。本文提出了JoyVASA,一种基于扩散的方法,用于生成音频驱动面部动画中的面部动态和头部运动。具体来说,第一阶段引入了解耦的面部表示框架,将动态面部表情与静态3D面部表示分离。这种解耦允许系统通过将任何静态3D面部表示与动态运动序列相结合来生成更长的视频。然后在第二阶段,训练一个扩散Transformer,以直接从音频线索生成运动序列,而与角色身份无关。最后,在第一阶段训练的生成器使用3D面部表示和生成的运动序列作为输入来渲染高质量的动画。通过解耦的面部表示和身份无关的运动生成过程,JoyVASA将应用范围从人类肖像扩展到无缝地动画动物面部。该模型在中文和英文混合数据集上进行训练,从而支持多语言。实验结果验证了该方法的有效性。未来的工作将侧重于提高实时性能和改进表情控制,进一步扩展在人像动画中的应用。

🔬 方法详解

问题定义:现有音频驱动人像动画方法,特别是基于扩散模型的方法,虽然在视频质量和唇形同步方面有所提升,但模型复杂度高,导致训练和推理效率低下,同时对生成视频的长度和帧间连续性造成限制。这些方法难以兼顾效率、质量和泛化性,尤其是在处理长视频和不同身份的角色时表现不佳。

核心思路:JoyVASA的核心思路是将面部动画生成过程解耦为两个阶段:首先,将静态的3D面部表示与动态的面部运动序列分离,实现解耦表示。其次,利用扩散Transformer直接从音频生成与角色身份无关的运动序列。这种解耦使得模型可以灵活地组合不同的静态人脸和动态运动,从而生成更长、更流畅的视频,并扩展到动物面部动画。

技术框架:JoyVASA包含两个主要阶段。第一阶段是解耦面部表示,训练一个生成器,将动态面部表情与静态3D面部表示分离。第二阶段是训练一个扩散Transformer,该Transformer以音频作为输入,生成与角色身份无关的运动序列。最后,第一阶段训练的生成器将3D面部表示和生成的运动序列作为输入,渲染出高质量的动画。

关键创新:JoyVASA的关键创新在于解耦的面部表示和身份无关的运动生成。通过将静态人脸和动态运动分离,模型可以独立地处理这两个方面,从而提高了生成效率和灵活性。扩散Transformer的引入使得运动序列的生成更加自然和流畅,避免了传统方法中常见的抖动和不连续问题。此外,身份无关的运动生成使得模型可以轻松地应用于不同的人物和动物。

关键设计:JoyVASA的关键设计包括:1) 解耦面部表示框架的具体实现方式,例如如何提取和表示静态3D人脸和动态运动序列;2) 扩散Transformer的网络结构和训练策略,例如如何设计损失函数以保证生成运动序列的质量和与音频的同步性;3) 如何将中文和英文数据集混合训练,以实现多语言支持;4) 如何优化生成器的渲染过程,以提高视频质量和帧间连续性。具体参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

JoyVASA通过解耦面部表示和身份无关的运动生成,实现了高质量、长视频和多语言支持的人像及动物动画生成。实验结果验证了该方法的有效性,但具体的性能数据(如唇形同步准确率、视频质量指标等)和对比基线(如其他音频驱动动画方法)以及提升幅度需要在论文中查找(未知)。该模型在跨语言和跨物种(人与动物)的泛化能力是其主要亮点。

🎯 应用场景

JoyVASA具有广泛的应用前景,包括虚拟主播、电影制作、游戏开发、教育娱乐等领域。它可以用于创建逼真且富有表现力的人像和动物动画,为用户提供更加沉浸式的体验。该技术还可以应用于在线会议、远程教育等场景,提升沟通的效率和趣味性。未来,随着实时性能的提升和表情控制的完善,JoyVASA有望在更多领域发挥重要作用。

📄 摘要(原文)

Audio-driven portrait animation has made significant advances with diffusion-based models, improving video quality and lipsync accuracy. However, the increasing complexity of these models has led to inefficiencies in training and inference, as well as constraints on video length and inter-frame continuity. In this paper, we propose JoyVASA, a diffusion-based method for generating facial dynamics and head motion in audio-driven facial animation. Specifically, in the first stage, we introduce a decoupled facial representation framework that separates dynamic facial expressions from static 3D facial representations. This decoupling allows the system to generate longer videos by combining any static 3D facial representation with dynamic motion sequences. Then, in the second stage, a diffusion transformer is trained to generate motion sequences directly from audio cues, independent of character identity. Finally, a generator trained in the first stage uses the 3D facial representation and the generated motion sequences as inputs to render high-quality animations. With the decoupled facial representation and the identity-independent motion generation process, JoyVASA extends beyond human portraits to animate animal faces seamlessly. The model is trained on a hybrid dataset of private Chinese and public English data, enabling multilingual support. Experimental results validate the effectiveness of our approach. Future work will focus on improving real-time performance and refining expression control, further expanding the applications in portrait animation. The code is available at: https://github.com/jdh-algo/JoyVASA.