AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling
作者: Yiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan
分类: cs.CV, cs.AI
发布日期: 2026-05-28
💡 一句话要点
AnyMo:基于掩码建模的通用模态条件运动生成框架
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 条件运动生成 多模态学习 掩码建模 Transformer 运动Tokenizer
📋 核心要点
- 现有条件运动生成方法缺乏跨模态泛化能力,且受限于特定任务架构,难以探索多模态交互。
- AnyMo通过大规模多模态数据集OmniHuMo,结合残差量化和掩码建模Transformer,实现通用模态条件运动生成。
- 实验证明AnyMo能够生成高保真度的运动,并灵活控制空间和风格属性,提升了运动生成质量。
📝 摘要(中文)
条件人体运动生成是计算机视觉和机器人领域的一个基本挑战。现有方法通常受限于固定的模态配置和特定任务的架构,对跨模态交互和多模态条件合成的缩放规律探索不足。一个关键瓶颈是缺乏大规模模态对齐的运动数据,限制了在不同控制信号上的泛化能力。本文提出了OmniHuMo,一个大规模、高质量的数据集,包含超过5000小时的运动和320万个序列,具有精确对齐的多模态标注(例如,文本、语音、音乐和轨迹)。基于OmniHuMo,我们提出了AnyMo,一个统一的多模态框架,结合了基于Residual FSQ的运动tokenizer和一个可扩展的掩码建模transformer,从而能够在任意模态组合下进行高质量的运动合成。大量实验表明,AnyMo实现了高保真度的合成,同时提供了对空间和风格属性的灵活控制。
🔬 方法详解
问题定义:现有条件人体运动生成方法难以处理多种模态的输入,并且通常需要针对特定模态组合设计专门的架构。缺乏大规模、多模态对齐的运动数据是限制模型泛化能力的关键因素。现有方法难以有效探索不同模态之间的交互关系,以及多模态条件合成的缩放规律。
核心思路:AnyMo的核心思路是利用大规模多模态数据集OmniHuMo,训练一个通用的运动生成模型,该模型能够接受任意模态组合的输入,并生成高质量的运动序列。通过掩码建模的方式,模型可以学习不同模态之间的依赖关系,从而实现跨模态的运动生成。
技术框架:AnyMo的整体架构包含两个主要模块:运动Tokenizer和掩码建模Transformer。首先,运动Tokenizer将原始运动数据转换为离散的token序列,采用Residual FSQ(Residual Vector Quantization with Factorized Softmax)方法进行高效的tokenization。然后,掩码建模Transformer接收来自不同模态的输入(例如,文本、语音、音乐、轨迹),并随机mask掉一部分运动token。模型的目标是根据可见的模态信息和未被mask的运动token,预测被mask掉的运动token。
关键创新:AnyMo的关键创新在于其通用性和可扩展性。它能够处理任意模态组合的输入,而无需针对特定模态组合设计专门的架构。此外,AnyMo采用了掩码建模的方式,使得模型能够学习不同模态之间的依赖关系,从而实现跨模态的运动生成。OmniHuMo数据集的贡献也至关重要,为训练通用模型提供了数据基础。
关键设计:运动Tokenizer使用Residual FSQ,通过多层量化器将连续的运动数据映射到离散的token空间。掩码建模Transformer采用标准的Transformer架构,并针对运动生成任务进行了优化。损失函数主要包括重建损失,用于衡量预测的运动token与真实运动token之间的差异。训练过程中,采用随机mask策略,以增加模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
AnyMo在OmniHuMo数据集上进行了广泛的实验,结果表明AnyMo能够生成高保真度的运动,并且能够灵活控制空间和风格属性。相较于现有方法,AnyMo在运动质量和多样性方面均取得了显著提升。实验还验证了AnyMo在不同模态组合下的泛化能力。
🎯 应用场景
AnyMo具有广泛的应用前景,例如虚拟现实、游戏开发、机器人控制和动画制作。它可以根据文本描述、语音指令、音乐节奏或轨迹引导生成逼真的人体运动,从而为用户提供更加自然和沉浸式的交互体验。该研究还有助于推动人机交互和机器人技术的进步。
📄 摘要(原文)
Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.