MMHead: Towards Fine-grained Multi-modal 3D Facial Animation
作者: Sijing Wu, Yunhao Li, Yichao Yan, Huiyu Duan, Ziwei Liu, Guangtao Zhai
分类: cs.CV
发布日期: 2024-10-10
备注: Accepted by ACMMM 2024. Project page: https://wsj-sjtu.github.io/MMHead/
💡 一句话要点
MMHead:构建多模态3D面部动画数据集,并提出文本驱动的动画生成方法。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 3D面部动画 多模态学习 文本驱动生成 VQ-VAE 数据集构建
📋 核心要点
- 现有音频驱动的3D面部动画研究较多,但缺乏多模态尤其是文本引导的3D面部动画数据集,限制了相关研究。
- 论文构建了大规模多模态3D面部动画数据集MMHead,并提出基于VQ-VAE的MM2Face方法,统一多模态信息。
- 实验表明,MMHead数据集和MM2Face方法在文本驱动的3D说话头动画和文本到3D面部运动生成任务上表现出潜力。
📝 摘要(中文)
本文针对多媒体领域中3D面部动画的需求,特别是文本引导的3D面部动画研究的空白,提出了一个大规模多模态3D面部动画数据集MMHead。该数据集包含49小时的3D面部运动序列、语音音频和丰富的分层文本标注。文本标注包括抽象动作和情感描述、细粒度的面部和头部运动描述(表情和头部姿势),以及三种可能引发该情感的场景。数据集构建通过整合五个公开的2D人像视频数据集,并提出一个自动流程,从单目视频重建3D面部运动序列,并借助AU检测和ChatGPT获得分层文本标注。基于MMHead数据集,建立了文本驱动的3D说话头动画和文本到3D面部运动生成两个新任务的基准。此外,提出了一种基于VQ-VAE的简单而有效的MM2Face方法,统一多模态信息,生成多样且合理的3D面部运动,并在两个基准上取得了有竞争力的结果。实验结果表明,该数据集和基准在促进多模态3D面部动画发展方面具有巨大潜力。
🔬 方法详解
问题定义:现有3D面部动画研究主要集中在音频驱动方面,缺乏对文本等其他模态信息的有效利用。构建高质量的多模态3D面部动画数据集面临数据获取和标注的挑战,特别是细粒度的文本描述。现有方法难以实现文本到逼真3D面部动画的生成,缺乏统一多模态信息的有效模型。
核心思路:论文的核心思路是构建一个大规模、多模态的3D面部动画数据集MMHead,并基于此提出一个能够有效融合多模态信息并生成高质量3D面部动画的模型MM2Face。通过自动化的数据处理流程和借助预训练模型,降低数据构建和标注的成本,并利用VQ-VAE学习离散的潜在表示,从而实现多样化的动画生成。
技术框架:整体框架包括数据构建和模型训练两个部分。数据构建部分,首先整合多个2D人像视频数据集,然后利用自动化的3D重建流程从单目视频中提取3D面部运动序列。接着,利用AU检测和ChatGPT等工具生成分层文本标注。模型训练部分,MM2Face模型基于VQ-VAE架构,将文本、音频和3D面部运动序列编码到共享的潜在空间,然后解码生成3D面部动画。
关键创新:论文的关键创新在于构建了大规模多模态3D面部动画数据集MMHead,并提出了基于VQ-VAE的MM2Face模型。MMHead数据集填补了多模态3D面部动画数据集的空白,为相关研究提供了基础。MM2Face模型能够有效融合文本、音频和3D面部运动序列等多模态信息,生成高质量的3D面部动画,优于现有方法。
关键设计:MMHead数据集包含49小时的3D面部运动序列,以及对应的语音和文本标注。文本标注采用分层结构,包括抽象动作和情感描述、细粒度的面部和头部运动描述,以及场景描述。MM2Face模型使用VQ-VAE学习离散的潜在表示,从而实现多样化的动画生成。损失函数包括重建损失、对抗损失和量化损失,以保证生成动画的质量和真实性。
🖼️ 关键图片
📊 实验亮点
MMHead数据集是目前最大的多模态3D面部动画数据集,包含49小时的数据。MM2Face模型在文本驱动的3D说话头动画和文本到3D面部运动生成任务上取得了有竞争力的结果,证明了其有效性。相较于其他方法,MM2Face能够生成更加多样化和逼真的3D面部动画。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、电影制作、虚拟助手等领域。例如,可以根据用户输入的文本生成逼真的3D面部动画,用于创建个性化的虚拟角色或进行情感化的交流。该研究还有助于提升人机交互的自然性和表现力,为未来的数字娱乐和社交体验提供更丰富的可能性。
📄 摘要(原文)
3D facial animation has attracted considerable attention due to its extensive applications in the multimedia field. Audio-driven 3D facial animation has been widely explored with promising results. However, multi-modal 3D facial animation, especially text-guided 3D facial animation is rarely explored due to the lack of multi-modal 3D facial animation dataset. To fill this gap, we first construct a large-scale multi-modal 3D facial animation dataset, MMHead, which consists of 49 hours of 3D facial motion sequences, speech audios, and rich hierarchical text annotations. Each text annotation contains abstract action and emotion descriptions, fine-grained facial and head movements (i.e., expression and head pose) descriptions, and three possible scenarios that may cause such emotion. Concretely, we integrate five public 2D portrait video datasets, and propose an automatic pipeline to 1) reconstruct 3D facial motion sequences from monocular videos; and 2) obtain hierarchical text annotations with the help of AU detection and ChatGPT. Based on the MMHead dataset, we establish benchmarks for two new tasks: text-induced 3D talking head animation and text-to-3D facial motion generation. Moreover, a simple but efficient VQ-VAE-based method named MM2Face is proposed to unify the multi-modal information and generate diverse and plausible 3D facial motions, which achieves competitive results on both benchmarks. Extensive experiments and comprehensive analysis demonstrate the significant potential of our dataset and benchmarks in promoting the development of multi-modal 3D facial animation.