EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling

作者: Haiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Xuefei Zhe, Naoya Iwamoto, Bo Zheng, Michael J. Black

分类: cs.CV

发布日期: 2023-12-31 (更新: 2024-03-30)

备注: Fix typos; Conflict of Interest Disclosure; CVPR Camera Ready; Project Page: https://pantomatrix.github.io/EMAGE/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

EMAGE：通过具表现力的掩码音频手势建模实现统一的全身协同语音手势生成

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 协同语音手势生成 全身运动建模 掩码音频手势 Transformer网络 VQ-VAE BEAT2数据集 人机交互

📋 核心要点

现有协同语音手势生成方法难以生成高质量、全身且同步的面部、身体和手部动作。
EMAGE利用掩码音频手势Transformer，通过联合训练音频到手势生成和掩码手势重建，有效编码音频和身体手势。
EMAGE在BEAT2数据集上实现了最先进的全身手势生成性能，并能灵活接受预定义的时空手势输入。

📝 摘要（中文）

我们提出了EMAGE，一个从音频和掩码手势生成全身人体手势的框架，涵盖面部、局部身体、手部和全局运动。为此，我们首先引入了BEAT2 (BEAT-SMPLX-FLAME)，这是一个新的网格级整体协同语音数据集。BEAT2结合了MoShed SMPL-X身体模型与FLAME头部参数，并进一步改进了头部、颈部和手指运动的建模，提供了一个社区标准化的、高质量的3D运动捕捉数据集。EMAGE在训练期间利用掩码身体手势先验来提高推理性能。它包含一个掩码音频手势Transformer，促进音频到手势生成和掩码手势重建的联合训练，以有效地编码音频和身体手势提示。来自掩码手势的编码身体提示被单独用于生成面部和身体运动。此外，EMAGE自适应地合并来自音频节奏和内容的语音特征，并利用四个组合VQ-VAE来增强结果的保真度和多样性。实验表明，EMAGE生成具有最先进性能的整体手势，并且可以灵活地接受预定义的时空手势输入，生成完整的、音频同步的结果。我们的代码和数据集可在https://pantomatrix.github.io/EMAGE/ 获取。

🔬 方法详解

问题定义：现有协同语音手势生成方法通常关注于身体或面部单一模态，缺乏对全身整体运动的建模能力。此外，生成的手势在自然度和同步性方面仍有提升空间，难以满足实际应用需求。现有方法在利用音频信息和手势先验方面存在不足，导致生成结果的质量和多样性受限。

核心思路：EMAGE的核心思路是利用掩码音频手势建模，通过联合训练音频到手势生成和掩码手势重建，从而有效地编码音频和身体手势信息。这种方法允许模型学习到更鲁棒的音频-手势对应关系，并利用掩码手势先验来提高生成结果的质量和多样性。通过分离身体和面部运动的生成，并自适应地融合音频的节奏和内容特征，EMAGE能够生成更自然、同步的全身手势。

技术框架：EMAGE框架包含以下主要模块：1) Masked Audio Gesture Transformer：用于联合训练音频到手势生成和掩码手势重建，编码音频和身体手势提示。2) 面部运动生成模块：利用编码后的身体手势提示生成面部运动。3) 身体运动生成模块：利用编码后的身体手势提示生成身体运动。4) 自适应语音特征融合模块：自适应地合并来自音频节奏和内容的语音特征。5) 组合VQ-VAE：用于增强生成结果的保真度和多样性。

关键创新：EMAGE的关键创新在于：1) 提出了掩码音频手势建模方法，通过联合训练音频到手势生成和掩码手势重建，有效利用了音频和手势信息。2) 引入了BEAT2数据集，这是一个高质量的全身协同语音数据集，为模型训练提供了充足的数据支持。3) 使用组合VQ-VAE来增强生成结果的保真度和多样性。

关键设计：EMAGE的关键设计包括：1) Masked Audio Gesture Transformer的网络结构和训练策略。2) 自适应语音特征融合模块的设计，用于平衡音频节奏和内容信息。3) 四个组合VQ-VAE的具体参数设置和训练方法。4) 损失函数的设计，用于优化音频-手势同步性和手势自然度。

📊 实验亮点

实验结果表明，EMAGE在全身手势生成方面取得了最先进的性能。与现有方法相比，EMAGE生成的手势在自然度、同步性和多样性方面均有显著提升。此外，EMAGE能够灵活地接受预定义的时空手势输入，生成完整的、音频同步的结果，展示了其强大的泛化能力。

🎯 应用场景

EMAGE具有广泛的应用前景，包括虚拟化身生成、人机交互、游戏开发、虚拟现实和增强现实等领域。它可以用于创建更逼真、更具表现力的虚拟角色，提升用户在虚拟环境中的沉浸感和交互体验。此外，EMAGE还可以应用于语音助手和智能客服等领域，使机器能够通过手势更自然地与人交流。

📄 摘要（原文）

We propose EMAGE, a framework to generate full-body human gestures from audio and masked gestures, encompassing facial, local body, hands, and global movements. To achieve this, we first introduce BEAT2 (BEAT-SMPLX-FLAME), a new mesh-level holistic co-speech dataset. BEAT2 combines a MoShed SMPL-X body with FLAME head parameters and further refines the modeling of head, neck, and finger movements, offering a community-standardized, high-quality 3D motion captured dataset. EMAGE leverages masked body gesture priors during training to boost inference performance. It involves a Masked Audio Gesture Transformer, facilitating joint training on audio-to-gesture generation and masked gesture reconstruction to effectively encode audio and body gesture hints. Encoded body hints from masked gestures are then separately employed to generate facial and body movements. Moreover, EMAGE adaptively merges speech features from the audio's rhythm and content and utilizes four compositional VQ-VAEs to enhance the results' fidelity and diversity. Experiments demonstrate that EMAGE generates holistic gestures with state-of-the-art performance and is flexible in accepting predefined spatial-temporal gesture inputs, generating complete, audio-synchronized results. Our code and dataset are available https://pantomatrix.github.io/EMAGE/

EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册