Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs

📄 arXiv: 2406.18068v2 📥 PDF

作者: Uttaran Bhattacharya, Aniket Bera, Dinesh Manocha

分类: cs.CV

发布日期: 2024-06-26 (更新: 2024-11-22)

备注: 14 pages, 7 figures, 2 tables

期刊: In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 1st Workshop on Human Motion Generation, 2024, Seattle, Washington, USA

DOI: 10.1109/CVPRW63382.2024.00194


💡 一句话要点

提出Speech2UnifiedExpressions,同步合成逼真口语情感面部和身体表情

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 面部表情合成 身体姿势生成 语音驱动 对抗学习

📋 核心要点

  1. 现有方法难以从低成本输入同步生成逼真且情感丰富的口语化面部和身体表情。
  2. Speech2UnifiedExpressions利用多模态学习,从语音和稀疏运动数据中学习面部和身体表情的同步生成。
  3. 实验表明,该方法能有效降低重建误差,并生成具有多样化情感表达的面部和身体姿势。

📝 摘要(中文)

本文提出了一种基于多模态学习的方法,利用普通摄像头捕获的RGB视频数据,为数字角色同步合成口语化的面部表情和上半身姿势。该方法从视频数据中估计的稀疏面部标志点和上半身关节学习,生成逼真的情感角色动作。给定语音音频波形和从视频计算出的说话者面部标志点运动和身体关节运动的token序列,该方法合成说话者面部标志点和身体关节的运动序列,以匹配语音的内容和情感。我们设计了一个生成器,它由一组编码器组成,将所有输入转换为捕获它们相关性的多模态嵌入空间,然后是一对解码器来合成所需的面部和姿势运动。为了提高合成的合理性,我们使用了一个对抗判别器,它学习区分基于情感表达的原始视频计算的面部和姿势运动与我们合成的运动。为了评估我们的方法,我们扩展了TED Gesture Dataset,除了身体姿势之外,还包括视图归一化的口语面部标志点。我们通过对多个评估指标进行全面的定量和定性实验以及用户研究,证明了我们方法的性能。我们观察到,我们的方法产生了低重建误差,并为数字角色生成了具有多样化面部表情和身体姿势的合成样本。

🔬 方法详解

问题定义:现有方法在从低成本输入(如普通摄像头捕获的RGB视频)生成逼真且情感丰富的口语化面部和身体表情时面临挑战。这些方法通常难以捕捉语音内容和情感与面部及身体动作之间的复杂关联,导致合成的表情不自然或缺乏情感表达。此外,缺乏包含同步面部标志点和身体姿势的大规模数据集也限制了相关研究的进展。

核心思路:Speech2UnifiedExpressions的核心思路是利用多模态学习,将语音音频和从视频中提取的稀疏面部标志点和身体关节运动作为输入,学习一个统一的嵌入空间,从而捕捉它们之间的相关性。通过训练生成器和对抗判别器,该方法能够合成与语音内容和情感相匹配的逼真面部和身体动作。这种方法能够有效地利用低成本输入,并生成具有丰富情感表达的数字角色动作。

技术框架:该方法的技术框架主要包括以下几个模块:1) 编码器:一组编码器将语音音频、面部标志点运动和身体关节运动分别编码到多模态嵌入空间中,捕捉它们之间的相关性。2) 解码器:一对解码器从多模态嵌入空间中解码出期望的面部标志点和身体关节运动序列。3) 对抗判别器:一个对抗判别器用于区分从原始视频计算的面部和姿势运动与合成的运动,从而提高合成结果的真实性和自然度。整体流程是,首先将语音和运动数据输入编码器,然后通过解码器生成面部和身体运动,最后通过判别器进行优化。

关键创新:该方法的关键创新在于:1) 多模态嵌入空间:通过将语音和运动数据映射到统一的嵌入空间,有效地捕捉了它们之间的复杂关联。2) 对抗训练:利用对抗判别器,提高了合成结果的真实性和自然度,使其更接近真实的人类表情。3) 数据集扩展:扩展了TED Gesture Dataset,加入了视图归一化的口语面部标志点,为相关研究提供了更丰富的数据资源。

关键设计:在关键设计方面,该方法采用了以下技术细节:1) 编码器和解码器的具体网络结构(具体结构未知,论文中可能详细描述)。2) 对抗损失函数的设计,用于训练判别器和优化生成器。3) 多模态嵌入空间的维度和训练策略。4) 针对面部标志点和身体关节运动的特定损失函数,以保证合成结果的准确性和流畅性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在扩展的TED Gesture Dataset上进行了评估,通过定量和定性实验以及用户研究证明了其有效性。实验结果表明,该方法能够显著降低重建误差,并生成具有多样化情感表达的面部和身体姿势。用户研究也表明,合成的表情和动作更自然、更具表现力。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏、动画制作、人机交互等领域。例如,可以用于创建更具表现力的虚拟角色,提升在线会议和远程协作的真实感,以及开发更自然的人机交互界面。该技术能够降低动作捕捉的成本,使得更多人能够创建个性化的数字角色和内容。

📄 摘要(原文)

We present a multimodal learning-based method to simultaneously synthesize co-speech facial expressions and upper-body gestures for digital characters using RGB video data captured using commodity cameras. Our approach learns from sparse face landmarks and upper-body joints, estimated directly from video data, to generate plausible emotive character motions. Given a speech audio waveform and a token sequence of the speaker's face landmark motion and body-joint motion computed from a video, our method synthesizes the motion sequences for the speaker's face landmarks and body joints to match the content and the affect of the speech. We design a generator consisting of a set of encoders to transform all the inputs into a multimodal embedding space capturing their correlations, followed by a pair of decoders to synthesize the desired face and pose motions. To enhance the plausibility of synthesis, we use an adversarial discriminator that learns to differentiate between the face and pose motions computed from the original videos and our synthesized motions based on their affective expressions. To evaluate our approach, we extend the TED Gesture Dataset to include view-normalized, co-speech face landmarks in addition to body gestures. We demonstrate the performance of our method through thorough quantitative and qualitative experiments on multiple evaluation metrics and via a user study. We observe that our method results in low reconstruction error and produces synthesized samples with diverse facial expressions and body gestures for digital characters.