DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation
作者: Jisoo Kim, Jungbin Cho, Joonho Park, Soonmin Hwang, Da Eun Kim, Geon Kim, Youngjae Yu
分类: cs.CV
发布日期: 2024-08-12 (更新: 2025-03-24)
备注: First two authors contributed equally. This is a revised version of the original submission, which has been accepted for publication at AAAI 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DEEPTalk:提出动态情感嵌入,用于概率语音驱动的3D人脸动画生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 语音驱动 3D人脸动画 情感表达 动态情感嵌入 VQ-VAE 对比学习
📋 核心要点
- 现有语音驱动的3D人脸动画方法难以捕捉语音中细微的情感变化,导致面部表情单调,缺乏真实感。
- DEEPTalk通过概率对比学习构建联合情感嵌入空间,并利用时间分层VQ-VAE作为运动先验,从而生成更具情感表达的动态面部动画。
- 实验结果表明,DEEPTalk能够生成多样且情感丰富的说话人脸,同时保持准确的唇形同步效果,显著提升了动画的真实感。
📝 摘要(中文)
本文提出DEEPTalk,一种从语音输入直接生成多样且富有情感的3D人脸表情的新方法。为了实现这一目标,首先训练DEE(动态情感嵌入),它采用概率对比学习来构建语音和面部运动的联合情感嵌入空间。该概率框架捕捉了从语音和面部运动中解释情感的不确定性,从而能够从其多方面的空间中导出情感向量。此外,为了生成动态面部运动,设计了TH-VQVAE(时间分层VQ-VAE)作为一种富有表现力且鲁棒的运动先验,克服了VAE和VQ-VAE的局限性。利用这些强大的先验,开发了DEEPTalk,一个非自回归地预测码本索引以创建动态面部运动的说话头像生成器,并结合了新的情感一致性损失。在各种数据集上的大量实验证明了该方法在创建多样化、情感丰富的说话人脸方面的有效性,同时保持了准确的唇形同步。
🔬 方法详解
问题定义:现有语音驱动的3D人脸动画方法生成的面部表情通常缺乏情感表达,显得单调和重复,无法充分利用语音中蕴含的情感信息。这限制了其在需要高度情感表达的应用场景中的应用,例如虚拟助手、游戏角色等。现有方法难以捕捉语音和面部运动之间复杂的情感关联,并且缺乏生成多样化面部表情的能力。
核心思路:DEEPTalk的核心思路是建立一个能够捕捉语音和面部运动之间情感关联的联合嵌入空间,并利用强大的运动先验来生成动态的面部运动。通过概率对比学习,DEE能够学习到语音和面部运动的情感表示,并捕捉情感表达的不确定性。TH-VQVAE则提供了一个鲁棒且富有表现力的运动先验,克服了传统VAE和VQ-VAE的局限性。
技术框架:DEEPTalk的整体框架包含以下几个主要模块:1) 动态情感嵌入 (DEE):使用概率对比学习训练,将语音和面部运动映射到联合情感嵌入空间。2) 时间分层VQ-VAE (TH-VQVAE):作为运动先验,学习动态面部运动的潜在表示。3) 说话头像生成器:非自回归地预测码本索引,并结合情感一致性损失,生成最终的动态面部动画。整个流程首先通过DEE提取语音的情感向量,然后利用TH-VQVAE生成动态的面部运动,最后通过说话头像生成器将两者结合,生成最终的3D人脸动画。
关键创新:DEEPTalk的关键创新在于:1) 动态情感嵌入 (DEE):通过概率对比学习,能够更好地捕捉语音和面部运动之间的情感关联,并处理情感表达的不确定性。2) 时间分层VQ-VAE (TH-VQVAE):提供了一个更鲁棒和富有表现力的运动先验,克服了传统VAE和VQ-VAE的局限性,能够生成更自然的动态面部运动。3) 情感一致性损失:确保生成的人脸动画与输入的语音情感保持一致。
关键设计:DEE使用概率对比学习,通过最小化正样本对之间的距离,最大化负样本对之间的距离,学习情感嵌入。TH-VQVAE采用分层结构,能够捕捉不同时间尺度的运动信息。情感一致性损失通过比较生成的人脸动画的情感向量和输入的语音情感向量,来确保情感一致性。具体的网络结构和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文在多个数据集上进行了实验,结果表明DEEPTalk能够生成更具情感表达和多样性的3D人脸动画,同时保持了准确的唇形同步。与现有方法相比,DEEPTalk在情感表达和动画质量方面均有显著提升。具体的性能数据和对比基线在论文中有详细描述(未知)。
🎯 应用场景
DEEPTalk具有广泛的应用前景,包括虚拟助手、游戏角色、在线教育、电影制作等领域。它可以用于创建更具情感表达和个性化的虚拟角色,提升用户体验和互动性。此外,该技术还可以应用于语音治疗和情感识别等领域,帮助人们更好地理解和表达情感。
📄 摘要(原文)
Speech-driven 3D facial animation has garnered lots of attention thanks to its broad range of applications. Despite recent advancements in achieving realistic lip motion, current methods fail to capture the nuanced emotional undertones conveyed through speech and produce monotonous facial motion. These limitations result in blunt and repetitive facial animations, reducing user engagement and hindering their applicability. To address these challenges, we introduce DEEPTalk, a novel approach that generates diverse and emotionally rich 3D facial expressions directly from speech inputs. To achieve this, we first train DEE (Dynamic Emotion Embedding), which employs probabilistic contrastive learning to forge a joint emotion embedding space for both speech and facial motion. This probabilistic framework captures the uncertainty in interpreting emotions from speech and facial motion, enabling the derivation of emotion vectors from its multifaceted space. Moreover, to generate dynamic facial motion, we design TH-VQVAE (Temporally Hierarchical VQ-VAE) as an expressive and robust motion prior overcoming limitations of VAEs and VQ-VAEs. Utilizing these strong priors, we develop DEEPTalk, a talking head generator that non-autoregressively predicts codebook indices to create dynamic facial motion, incorporating a novel emotion consistency loss. Extensive experiments on various datasets demonstrate the effectiveness of our approach in creating diverse, emotionally expressive talking faces that maintain accurate lip-sync. Our project page is available at https://whwjdqls.github.io/deeptalk_website/