EmoFace: Audio-driven Emotional 3D Face Animation
作者: Chang Liu, Qunfen Lin, Zijiao Zeng, Ye Pan
分类: cs.CV, cs.GR
发布日期: 2024-07-17
备注: 2024 IEEE Conference Virtual Reality and 3D User Interfaces (VR). IEEE, 2024
期刊: 2024 IEEE Conference Virtual Reality and 3D User Interfaces (VR). IEEE, 2024: 387-397
DOI: 10.1109/VR58804.2024.00060
🔗 代码/项目: GITHUB
💡 一句话要点
EmoFace:提出音频驱动的情感3D面部动画生成方法,适用于MetaHuman模型。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 音频驱动 3D面部动画 情感表达 MetaHuman模型 语音编码 情感编码 后处理 视听数据集
📋 核心要点
- 现有音频驱动面部动画方法忽略情感影响或不适用于MetaHuman模型,导致动画真实感不足。
- EmoFace通过独立编码语音和情感信息,并结合后处理技术,生成更具情感表达和真实感的面部动画。
- 实验结果表明,EmoFace在驱动3D面部模型方面优于现有方法,并在用户研究中获得更高的评价。
📝 摘要(中文)
本文提出了一种名为EmoFace的音频驱动情感3D面部动画生成方法,旨在生成具有情感表达和同步唇部动作的逼真说话头像。现有方法通常忽略不同情感对表情的影响,或不适用于驱动MetaHuman模型。EmoFace通过独立的语音编码器和情感编码器学习音频、情感和面部控制器之间的关系,并映射到控制器数值序列。此外,引入两种后处理技术来增强动画的真实性,尤其是在眨眼和眼球运动方面。同时,本文贡献了一个情感视听数据集,并为每一帧推导控制参数,以解决缺乏适用于MetaHuman模型的情感视听数据的问题。该方法可应用于视频游戏中非玩家角色(NPC)的对话动画生成,以及虚拟现实环境中的头像驱动。定量、定性实验以及用户研究表明,该方法在驱动3D面部模型方面表现出优越的性能。
🔬 方法详解
问题定义:现有音频驱动的3D面部动画生成方法,在情感表达方面存在不足,难以生成具有丰富情感的面部动画。此外,许多方法不适用于驱动高质量的MetaHuman模型,限制了其应用范围。因此,需要一种能够生成具有情感表达,且适用于MetaHuman模型的音频驱动面部动画方法。
核心思路:EmoFace的核心思路是将语音和情感信息独立编码,从而更好地捕捉情感对表情的影响。通过独立的语音编码器和情感编码器,学习音频、情感和面部控制器之间的关系,从而实现情感驱动的面部动画生成。此外,通过后处理技术,增强眨眼和眼球运动的真实性。
技术框架:EmoFace的整体框架包括以下几个主要模块:1) 语音编码器:用于提取音频特征。2) 情感编码器:用于提取情感特征。3) 控制器映射模块:将音频和情感特征映射到面部控制器数值。4) 后处理模块:用于增强眨眼和眼球运动的真实性。整个流程是,首先输入音频和情感信息,分别通过语音编码器和情感编码器提取特征,然后通过控制器映射模块将特征映射到面部控制器数值,最后通过后处理模块增强动画的真实性。
关键创新:EmoFace的关键创新在于:1) 独立编码语音和情感信息,从而更好地捕捉情感对表情的影响。2) 提出两种后处理技术,用于增强眨眼和眼球运动的真实性。3) 构建了一个情感视听数据集,并为每一帧推导控制参数,以解决缺乏适用于MetaHuman模型的情感视听数据的问题。
关键设计:语音编码器和情感编码器的具体网络结构未知,论文中未详细描述。后处理技术包括:1) 眨眼增强:通过调整眼睑控制器的数值,模拟自然的眨眼动作。2) 眼球运动增强:通过调整眼球控制器的数值,模拟自然的眼球运动。损失函数和参数设置等细节在论文中未详细说明,具体实现细节未知。
🖼️ 关键图片
📊 实验亮点
EmoFace在驱动3D面部模型方面表现出优越的性能。通过定量和定性实验,以及用户研究,证明了EmoFace能够生成更具情感表达和真实感的面部动画。与现有方法相比,EmoFace在眨眼和眼球运动的真实性方面有显著提升。具体性能数据和提升幅度在论文中未明确给出,需要查阅原文。
🎯 应用场景
EmoFace可广泛应用于虚拟现实、视频游戏、在线教育等领域。例如,在视频游戏中,可以用于生成非玩家角色(NPC)的逼真对话动画,提升游戏体验。在虚拟现实环境中,可以用于驱动用户的虚拟化身,增强用户的沉浸感。此外,还可以应用于在线教育领域,生成具有情感表达的教学视频,提高学生的学习兴趣。
📄 摘要(原文)
Audio-driven emotional 3D face animation aims to generate emotionally expressive talking heads with synchronized lip movements. However, previous research has often overlooked the influence of diverse emotions on facial expressions or proved unsuitable for driving MetaHuman models. In response to this deficiency, we introduce EmoFace, a novel audio-driven methodology for creating facial animations with vivid emotional dynamics. Our approach can generate facial expressions with multiple emotions, and has the ability to generate random yet natural blinks and eye movements, while maintaining accurate lip synchronization. We propose independent speech encoders and emotion encoders to learn the relationship between audio, emotion and corresponding facial controller rigs, and finally map into the sequence of controller values. Additionally, we introduce two post-processing techniques dedicated to enhancing the authenticity of the animation, particularly in blinks and eye movements. Furthermore, recognizing the scarcity of emotional audio-visual data suitable for MetaHuman model manipulation, we contribute an emotional audio-visual dataset and derive control parameters for each frames. Our proposed methodology can be applied in producing dialogues animations of non-playable characters (NPCs) in video games, and driving avatars in virtual reality environments. Our further quantitative and qualitative experiments, as well as an user study comparing with existing researches show that our approach demonstrates superior results in driving 3D facial models. The code and sample data are available at https://github.com/SJTU-Lucy/EmoFace.