MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization
作者: Binjie Liu, Lina Liu, Sanyi Zhang, Songen Gu, Yihao Zhi, Tianyi Zhu, Lei Yang, Long Ye
分类: cs.GR, cs.CV, cs.SD
发布日期: 2025-03-18
💡 一句话要点
提出MAG框架,无需矢量量化实现高质量、多样化的多模态对齐语音协同手势生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音协同手势生成 多模态对齐 自回归模型 扩散模型 变分自编码器 连续运动嵌入 人机交互
📋 核心要点
- 现有语音协同手势生成方法依赖矢量量化,导致信息损失,影响生成手势的真实性。
- MAG框架通过MTA-VAE实现多模态对齐,并利用MMAG在连续运动嵌入中进行自回归建模,避免矢量量化。
- 实验表明,MAG在两个基准数据集上取得了SOTA性能,生成的手势更加真实和多样化。
📝 摘要(中文)
本文致力于全身语音协同手势生成。现有方法通常采用自回归模型和矢量量化token进行手势生成,这会导致信息损失并降低生成手势的真实感。为了解决这个问题,受到真实世界人类运动自然连续性的启发,我们提出了MAG,一种新颖的多模态对齐框架,用于高质量和多样化的语音协同手势合成,无需依赖离散token化。(1) 我们引入了一个运动-文本-音频对齐的变分自编码器(MTA-VAE),它利用预训练的WavCaps的文本和音频嵌入来增强与运动的语义和节奏对齐,最终产生更真实的手势。(2) 在此基础上,我们提出了一个多模态掩码自回归模型(MMAG),该模型通过扩散在连续运动嵌入中实现自回归建模,而无需矢量量化。为了进一步确保多模态一致性,MMAG包含一个混合粒度音频-文本融合块,作为扩散过程的条件。在两个基准数据集上的大量实验表明,MAG在定量和定性方面都达到了最先进的性能,产生了高度真实和多样化的语音协同手势。代码将被发布以促进未来的研究。
🔬 方法详解
问题定义:论文旨在解决语音协同手势生成中,现有方法依赖矢量量化导致的信息损失和真实感不足的问题。现有方法将连续的运动数据离散化为token,忽略了人类运动的自然连续性,限制了生成手势的质量和多样性。
核心思路:论文的核心思路是避免使用矢量量化,直接在连续的运动嵌入空间中进行自回归建模。通过多模态对齐和扩散模型,保证生成手势与语音、文本在语义和节奏上的一致性,从而提高生成手势的真实感和多样性。
技术框架:MAG框架包含两个主要模块:运动-文本-音频对齐的变分自编码器(MTA-VAE)和多模态掩码自回归模型(MMAG)。MTA-VAE负责将运动、文本和音频信息编码到对齐的隐空间中。MMAG则利用扩散模型,在MTA-VAE的隐空间中进行自回归建模,生成连续的运动嵌入。一个混合粒度音频-文本融合块被用于增强多模态一致性。
关键创新:最重要的创新点在于避免了矢量量化,直接在连续运动嵌入空间中进行自回归建模。这保留了更多信息,并允许生成更自然、更流畅的手势。此外,MTA-VAE和MMAG的结合,以及混合粒度音频-文本融合块的设计,都有助于提高生成手势的质量和多模态一致性。
关键设计:MTA-VAE利用预训练的WavCaps的文本和音频嵌入作为先验知识,增强与运动的语义和节奏对齐。MMAG使用扩散模型进行自回归建模,通过控制扩散过程的条件,可以生成不同的手势。混合粒度音频-文本融合块采用不同粒度的特征融合方式,以更好地捕捉语音和文本之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MAG框架在两个基准数据集上取得了SOTA性能。相较于现有方法,MAG生成的手势在真实感和多样性方面都有显著提升。具体性能数据未知,但论文强调了在定量和定性评估中均优于现有方法。
🎯 应用场景
该研究成果可应用于虚拟形象生成、人机交互、游戏开发、动画制作等领域。通过生成更自然、更真实的语音协同手势,可以提升用户体验,增强虚拟角色的表现力,并为相关应用带来更广阔的发展空间。未来,该技术有望应用于更复杂的场景,例如实时语音驱动的虚拟人物表演等。
📄 摘要(原文)
This work focuses on full-body co-speech gesture generation. Existing methods typically employ an autoregressive model accompanied by vector-quantized tokens for gesture generation, which results in information loss and compromises the realism of the generated gestures. To address this, inspired by the natural continuity of real-world human motion, we propose MAG, a novel multi-modal aligned framework for high-quality and diverse co-speech gesture synthesis without relying on discrete tokenization. Specifically, (1) we introduce a motion-text-audio-aligned variational autoencoder (MTA-VAE), which leverages pre-trained WavCaps' text and audio embeddings to enhance both semantic and rhythmic alignment with motion, ultimately producing more realistic gestures. (2) Building on this, we propose a multimodal masked autoregressive model (MMAG) that enables autoregressive modeling in continuous motion embeddings through diffusion without vector quantization. To further ensure multi-modal consistency, MMAG incorporates a hybrid granularity audio-text fusion block, which serves as conditioning for diffusion process. Extensive experiments on two benchmark datasets demonstrate that MAG achieves stateof-the-art performance both quantitatively and qualitatively, producing highly realistic and diverse co-speech gestures.The code will be released to facilitate future research.