EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation
作者: Xiangyue Zhang, Jianfang Li, Jiaxu Zhang, Jianqiang Ren, Liefeng Bo, Zhigang Tu
分类: cs.GR, cs.CV, cs.SD
发布日期: 2025-04-12 (更新: 2025-04-15)
备注: 12 pages, 12 figures
💡 一句话要点
提出EchoMask,利用语音引导的注意力掩码建模生成高质量的伴随语音运动
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 伴随语音运动生成 掩码建模 语音查询注意力 运动音频对齐 多模态学习
📋 核心要点
- 现有伴随语音运动生成方法难以有效识别用于运动掩码的关键语义帧。
- 利用运动对齐的语音特征引导掩码建模,选择性地掩盖节奏相关和语义表达性强的运动帧。
- 实验结果表明,该方法在伴随语音运动生成任务上优于现有技术,生成质量更高。
📝 摘要(中文)
本文提出了一种基于语音查询的注意力掩码建模框架,用于生成伴随语音的运动。现有方法在运动掩码建模中难以识别语义上重要的帧。该方法利用与运动对齐的语音特征来指导掩码运动建模过程,选择性地掩盖与节奏相关和语义表达性强的运动帧。具体而言,首先提出了一个运动-音频对齐模块(MAM)来构建潜在的运动-音频联合空间。在该空间中,投影低级和高级语音特征,从而使用可学习的语音查询实现与运动对齐的语音表示。然后,引入了一种语音查询的注意力机制(SQA),通过运动键和语音查询之间的交互来计算帧级别的注意力分数,从而引导选择性掩码朝向具有高注意力分数的运动帧。最后,还将与运动对齐的语音特征注入到生成网络中,以促进伴随语音的运动生成。定性和定量评估表明,该方法优于现有的最先进方法,成功地生成了高质量的伴随语音运动。
🔬 方法详解
问题定义:现有的伴随语音运动生成方法,特别是基于掩码建模的框架,在确定哪些运动帧应该被掩盖以进行有效的学习方面存在困难。它们难以识别那些在语义上重要的帧,导致模型无法充分学习语音和运动之间的复杂关系。
核心思路:论文的核心思路是利用语音信息来指导运动帧的掩码过程。通过将语音特征与运动特征对齐,并使用语音查询来选择性地关注和掩盖那些与语音内容密切相关的运动帧,从而提高模型的学习效率和生成质量。这种方法能够使模型更加关注那些携带关键语义信息的运动帧。
技术框架:该方法包含以下主要模块:1) 运动-音频对齐模块(MAM):用于构建运动和音频的联合潜在空间,并将语音特征投影到该空间中。2) 语音查询的注意力机制(SQA):利用运动键和语音查询之间的交互计算帧级别的注意力分数,指导掩码过程。3) 生成网络:将运动对齐的语音特征注入到生成网络中,用于生成伴随语音的运动。整体流程是先通过MAM对齐语音和运动,然后利用SQA选择性地掩盖运动帧,最后通过生成网络生成运动序列。
关键创新:该方法最重要的创新点在于引入了语音查询的注意力机制(SQA)来指导运动帧的掩码过程。与传统的随机掩码或基于运动特征的掩码方法不同,SQA能够利用语音信息来动态地选择需要掩盖的帧,从而使模型更加关注那些与语音内容相关的运动帧。
关键设计:运动-音频对齐模块(MAM)使用可学习的语音查询来表示语音特征,并通过注意力机制将语音特征与运动特征对齐。语音查询的注意力机制(SQA)使用运动键和语音查询之间的点积来计算注意力分数,并使用这些分数来指导掩码过程。生成网络可以使用Transformer或其他序列生成模型,损失函数包括重建损失和对抗损失等。
🖼️ 关键图片
📊 实验亮点
该方法在伴随语音运动生成任务上取得了显著的性能提升。定性和定量评估表明,该方法生成的运动序列更加自然、流畅,与语音内容更加协调。与现有最先进的方法相比,该方法在运动质量和语音同步性方面均有明显改善。具体性能数据未知,但摘要明确指出优于现有SOTA方法。
🎯 应用场景
该研究成果可应用于虚拟人物动画生成、人机交互、游戏开发等领域。通过语音驱动虚拟角色的动作,可以创建更自然、更具表现力的动画效果。此外,该技术还可以用于辅助语音治疗,帮助患者改善发音和表达能力。未来,该技术有望在社交媒体、在线教育等领域得到广泛应用。
📄 摘要(原文)
Masked modeling framework has shown promise in co-speech motion generation. However, it struggles to identify semantically significant frames for effective motion masking. In this work, we propose a speech-queried attention-based mask modeling framework for co-speech motion generation. Our key insight is to leverage motion-aligned speech features to guide the masked motion modeling process, selectively masking rhythm-related and semantically expressive motion frames. Specifically, we first propose a motion-audio alignment module (MAM) to construct a latent motion-audio joint space. In this space, both low-level and high-level speech features are projected, enabling motion-aligned speech representation using learnable speech queries. Then, a speech-queried attention mechanism (SQA) is introduced to compute frame-level attention scores through interactions between motion keys and speech queries, guiding selective masking toward motion frames with high attention scores. Finally, the motion-aligned speech features are also injected into the generation network to facilitate co-speech motion generation. Qualitative and quantitative evaluations confirm that our method outperforms existing state-of-the-art approaches, successfully producing high-quality co-speech motion.