MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization

作者: Binjie Liu, Lina Liu, Sanyi Zhang, Songen Gu, Yihao Zhi, Tianyi Zhu, Lei Yang, Long Ye

分类: cs.GR, cs.CV, cs.SD

发布日期: 2025-03-18

💡 一句话要点

提出MAG框架，无需矢量量化实现高质量、多样化的多模态对齐语音协同手势生成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音协同手势生成 多模态对齐 自回归模型 扩散模型 变分自编码器 连续运动嵌入 人机交互

📋 核心要点

现有语音协同手势生成方法依赖矢量量化，导致信息损失，影响生成手势的真实性。
MAG框架通过MTA-VAE实现多模态对齐，并利用MMAG在连续运动嵌入中进行自回归建模，避免矢量量化。
实验表明，MAG在两个基准数据集上取得了SOTA性能，生成的手势更加真实和多样化。

📝 摘要（中文）

本文致力于全身语音协同手势生成。现有方法通常采用自回归模型和矢量量化token进行手势生成，这会导致信息损失并降低生成手势的真实感。为了解决这个问题，受到真实世界人类运动自然连续性的启发，我们提出了MAG，一种新颖的多模态对齐框架，用于高质量和多样化的语音协同手势合成，无需依赖离散token化。(1) 我们引入了一个运动-文本-音频对齐的变分自编码器(MTA-VAE)，它利用预训练的WavCaps的文本和音频嵌入来增强与运动的语义和节奏对齐，最终产生更真实的手势。(2) 在此基础上，我们提出了一个多模态掩码自回归模型(MMAG)，该模型通过扩散在连续运动嵌入中实现自回归建模，而无需矢量量化。为了进一步确保多模态一致性，MMAG包含一个混合粒度音频-文本融合块，作为扩散过程的条件。在两个基准数据集上的大量实验表明，MAG在定量和定性方面都达到了最先进的性能，产生了高度真实和多样化的语音协同手势。代码将被发布以促进未来的研究。

🔬 方法详解

问题定义：论文旨在解决语音协同手势生成中，现有方法依赖矢量量化导致的信息损失和真实感不足的问题。现有方法将连续的运动数据离散化为token，忽略了人类运动的自然连续性，限制了生成手势的质量和多样性。

核心思路：论文的核心思路是避免使用矢量量化，直接在连续的运动嵌入空间中进行自回归建模。通过多模态对齐和扩散模型，保证生成手势与语音、文本在语义和节奏上的一致性，从而提高生成手势的真实感和多样性。

技术框架：MAG框架包含两个主要模块：运动-文本-音频对齐的变分自编码器(MTA-VAE)和多模态掩码自回归模型(MMAG)。MTA-VAE负责将运动、文本和音频信息编码到对齐的隐空间中。MMAG则利用扩散模型，在MTA-VAE的隐空间中进行自回归建模，生成连续的运动嵌入。一个混合粒度音频-文本融合块被用于增强多模态一致性。

关键创新：最重要的创新点在于避免了矢量量化，直接在连续运动嵌入空间中进行自回归建模。这保留了更多信息，并允许生成更自然、更流畅的手势。此外，MTA-VAE和MMAG的结合，以及混合粒度音频-文本融合块的设计，都有助于提高生成手势的质量和多模态一致性。

关键设计：MTA-VAE利用预训练的WavCaps的文本和音频嵌入作为先验知识，增强与运动的语义和节奏对齐。MMAG使用扩散模型进行自回归建模，通过控制扩散过程的条件，可以生成不同的手势。混合粒度音频-文本融合块采用不同粒度的特征融合方式，以更好地捕捉语音和文本之间的关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MAG框架在两个基准数据集上取得了SOTA性能。相较于现有方法，MAG生成的手势在真实感和多样性方面都有显著提升。具体性能数据未知，但论文强调了在定量和定性评估中均优于现有方法。

🎯 应用场景

该研究成果可应用于虚拟形象生成、人机交互、游戏开发、动画制作等领域。通过生成更自然、更真实的语音协同手势，可以提升用户体验，增强虚拟角色的表现力，并为相关应用带来更广阔的发展空间。未来，该技术有望应用于更复杂的场景，例如实时语音驱动的虚拟人物表演等。

📄 摘要（原文）

This work focuses on full-body co-speech gesture generation. Existing methods typically employ an autoregressive model accompanied by vector-quantized tokens for gesture generation, which results in information loss and compromises the realism of the generated gestures. To address this, inspired by the natural continuity of real-world human motion, we propose MAG, a novel multi-modal aligned framework for high-quality and diverse co-speech gesture synthesis without relying on discrete tokenization. Specifically, (1) we introduce a motion-text-audio-aligned variational autoencoder (MTA-VAE), which leverages pre-trained WavCaps' text and audio embeddings to enhance both semantic and rhythmic alignment with motion, ultimately producing more realistic gestures. (2) Building on this, we propose a multimodal masked autoregressive model (MMAG) that enables autoregressive modeling in continuous motion embeddings through diffusion without vector quantization. To further ensure multi-modal consistency, MMAG incorporates a hybrid granularity audio-text fusion block, which serves as conditioning for diffusion process. Extensive experiments on two benchmark datasets demonstrate that MAG achieves stateof-the-art performance both quantitatively and qualitatively, producing highly realistic and diverse co-speech gestures.The code will be released to facilitate future research.

MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理