GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation

作者: Junyu Shi, Lijiang Liu, Yong Sun, Zhiyuan Zhang, Jinni Zhou, Qiang Nie

分类: cs.CV

发布日期: 2025-03-19 (更新: 2025-07-27)

💡 一句话要点

GenM³：用于文本条件人体动作生成的生成式预训练多路径运动模型

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本条件动作生成 生成式预训练 多路径Transformer 多专家VQ-VAE 数据异构性 运动表示学习 零样本泛化

📋 核心要点

现有方法难以处理大规模多源运动数据集中的数据异构性问题，导致动作生成效果不佳。
GenM³通过多专家VQ-VAE学习统一的离散运动表示，并利用多路径Transformer提升模态内和模态间表示。
GenM³在HumanML3D上取得了SOTA的FID分数0.035，并在IDEA400上展示了强大的零样本泛化能力。

📝 摘要（中文）

为了增强动作生成能力，扩大动作数据集至关重要。然而，在大型多源数据集上训练会因动作内容的变化而引入数据异构性挑战。为了解决这个问题，我们提出了生成式预训练多路径运动模型（GenM³），这是一个旨在学习统一运动表示的综合框架。GenM³包含两个组成部分：1）多专家VQ-VAE（MEVQ-VAE），它适应不同的数据集分布以学习统一的离散运动表示；2）多路径运动Transformer（MMT），它通过使用单独的模态特定路径（每个路径都具有密集激活的专家以适应该模态内的变化）来改善模态内表示，并通过文本-运动共享路径来改善模态间对齐。为了实现大规模训练，我们整合并统一了11个高质量的运动数据集（约220小时的运动数据），并通过文本注释对其进行增强（近10,000个由大型语言模型标记的运动序列和300多个由人类专家标记的运动序列）。在我们的集成数据集上训练后，GenM³在HumanML3D基准测试上实现了0.035的最先进FID，大大超过了最先进的方法。它还在IDEA400数据集上展示了强大的零样本泛化能力，突出了其在各种运动场景中的有效性和适应性。

🔬 方法详解

问题定义：论文旨在解决文本条件人体动作生成任务中，由于大规模多源数据集固有的数据异构性问题，导致模型难以学习到统一且高质量的运动表示的难题。现有方法在处理不同来源、不同风格的运动数据时，往往表现出泛化能力不足，生成动作质量不高，与文本描述的匹配度也较低。

核心思路：论文的核心思路是利用生成式预训练框架，通过多专家VQ-VAE学习统一的离散运动表示，并设计多路径运动Transformer来分别处理不同模态的信息，从而缓解数据异构性带来的影响。这种方法旨在提升模型对不同运动风格的适应能力，并增强文本和运动之间的对齐。

技术框架：GenM³框架主要包含两个核心模块：MEVQ-VAE和MMT。首先，MEVQ-VAE负责将连续的运动数据编码为离散的运动表示，并利用多个专家网络来适应不同数据集的分布。然后，MMT利用多路径Transformer结构，分别处理文本和运动信息，并通过共享路径实现模态间的对齐。整个框架采用预训练的方式，在大规模数据集上进行训练，从而提升模型的泛化能力。

关键创新：该论文的关键创新在于提出了多专家VQ-VAE和多路径运动Transformer。MEVQ-VAE能够有效地处理不同数据集的分布差异，学习到统一的离散运动表示。MMT则通过模态特定路径和共享路径，分别提升模态内表示和模态间对齐，从而生成更自然、更符合文本描述的动作。

关键设计：MEVQ-VAE中，每个专家网络负责处理特定数据集的运动数据，通过VQ-VAE学习离散的运动表示。MMT中，模态特定路径采用密集激活的专家网络，以适应模态内的变化。文本-运动共享路径则负责学习文本和运动之间的对应关系。损失函数包括VQ-VAE的重构损失和MMT的交叉熵损失，用于优化模型的参数。

🖼️ 关键图片

📊 实验亮点

GenM³在HumanML3D基准测试上取得了0.035的FID分数，显著优于现有SOTA方法。此外，该模型在IDEA400数据集上展示了强大的零样本泛化能力，表明其能够有效地处理未见过的运动场景。这些实验结果充分证明了GenM³在文本条件人体动作生成任务中的优越性能。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、动画制作等领域。通过输入文本描述，即可生成逼真的人体动作，极大地降低了动作生成成本，提升了内容创作效率。未来，该技术有望应用于人机交互、康复训练等领域，为人们提供更加智能、便捷的服务。

📄 摘要（原文）

Scaling up motion datasets is crucial to enhance motion generation capabilities. However, training on large-scale multi-source datasets introduces data heterogeneity challenges due to variations in motion content. To address this, we propose Generative Pretrained Multi-path Motion Model (GenM(^3)), a comprehensive framework designed to learn unified motion representations. GenM(^3) comprises two components: 1) a Multi-Expert VQ-VAE (MEVQ-VAE) that adapts to different dataset distributions to learn a unified discrete motion representation, and 2) a Multi-path Motion Transformer (MMT) that improves intra-modal representations by using separate modality-specific pathways, each with densely activated experts to accommodate variations within that modality, and improves inter-modal alignment by the text-motion shared pathway. To enable large-scale training, we integrate and unify 11 high-quality motion datasets (approximately 220 hours of motion data) and augment it with textual annotations (nearly 10,000 motion sequences labeled by a large language model and 300+ by human experts). After training on our integrated dataset, GenM(^3) achieves a state-of-the-art FID of 0.035 on the HumanML3D benchmark, surpassing state-of-the-art methods by a large margin. It also demonstrates strong zero-shot generalization on IDEA400 dataset, highlighting its effectiveness and adaptability across diverse motion scenarios.

GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理