AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

作者: Yiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan

分类: cs.CV, cs.AI

发布日期: 2026-05-28

💡 一句话要点

AnyMo：基于掩码建模的通用模态条件运动生成框架

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 条件运动生成 多模态学习 掩码建模 Transformer 运动Tokenizer

📋 核心要点

现有条件运动生成方法缺乏跨模态泛化能力，且受限于特定任务架构，难以探索多模态交互。
AnyMo通过大规模多模态数据集OmniHuMo，结合残差量化和掩码建模Transformer，实现通用模态条件运动生成。
实验证明AnyMo能够生成高保真度的运动，并灵活控制空间和风格属性，提升了运动生成质量。

📝 摘要（中文）

条件人体运动生成是计算机视觉和机器人领域的一个基本挑战。现有方法通常受限于固定的模态配置和特定任务的架构，对跨模态交互和多模态条件合成的缩放规律探索不足。一个关键瓶颈是缺乏大规模模态对齐的运动数据，限制了在不同控制信号上的泛化能力。本文提出了OmniHuMo，一个大规模、高质量的数据集，包含超过5000小时的运动和320万个序列，具有精确对齐的多模态标注（例如，文本、语音、音乐和轨迹）。基于OmniHuMo，我们提出了AnyMo，一个统一的多模态框架，结合了基于Residual FSQ的运动tokenizer和一个可扩展的掩码建模transformer，从而能够在任意模态组合下进行高质量的运动合成。大量实验表明，AnyMo实现了高保真度的合成，同时提供了对空间和风格属性的灵活控制。

🔬 方法详解

问题定义：现有条件人体运动生成方法难以处理多种模态的输入，并且通常需要针对特定模态组合设计专门的架构。缺乏大规模、多模态对齐的运动数据是限制模型泛化能力的关键因素。现有方法难以有效探索不同模态之间的交互关系，以及多模态条件合成的缩放规律。

核心思路：AnyMo的核心思路是利用大规模多模态数据集OmniHuMo，训练一个通用的运动生成模型，该模型能够接受任意模态组合的输入，并生成高质量的运动序列。通过掩码建模的方式，模型可以学习不同模态之间的依赖关系，从而实现跨模态的运动生成。

技术框架：AnyMo的整体架构包含两个主要模块：运动Tokenizer和掩码建模Transformer。首先，运动Tokenizer将原始运动数据转换为离散的token序列，采用Residual FSQ（Residual Vector Quantization with Factorized Softmax）方法进行高效的tokenization。然后，掩码建模Transformer接收来自不同模态的输入（例如，文本、语音、音乐、轨迹），并随机mask掉一部分运动token。模型的目标是根据可见的模态信息和未被mask的运动token，预测被mask掉的运动token。

关键创新：AnyMo的关键创新在于其通用性和可扩展性。它能够处理任意模态组合的输入，而无需针对特定模态组合设计专门的架构。此外，AnyMo采用了掩码建模的方式，使得模型能够学习不同模态之间的依赖关系，从而实现跨模态的运动生成。OmniHuMo数据集的贡献也至关重要，为训练通用模型提供了数据基础。

关键设计：运动Tokenizer使用Residual FSQ，通过多层量化器将连续的运动数据映射到离散的token空间。掩码建模Transformer采用标准的Transformer架构，并针对运动生成任务进行了优化。损失函数主要包括重建损失，用于衡量预测的运动token与真实运动token之间的差异。训练过程中，采用随机mask策略，以增加模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

AnyMo在OmniHuMo数据集上进行了广泛的实验，结果表明AnyMo能够生成高保真度的运动，并且能够灵活控制空间和风格属性。相较于现有方法，AnyMo在运动质量和多样性方面均取得了显著提升。实验还验证了AnyMo在不同模态组合下的泛化能力。

🎯 应用场景

AnyMo具有广泛的应用前景，例如虚拟现实、游戏开发、机器人控制和动画制作。它可以根据文本描述、语音指令、音乐节奏或轨迹引导生成逼真的人体运动，从而为用户提供更加自然和沉浸式的交互体验。该研究还有助于推动人机交互和机器人技术的进步。

📄 摘要（原文）

Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理