OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation

作者: Guowei Xu, Yuxuan Bian, Ailing Zeng, Mingyi Shi, Shaoli Huang, Wen Li, Lixin Duan, Qiang Xu

分类: cs.CV

发布日期: 2025-10-22

💡 一句话要点

OmniMotion-X：多功能多模态全身运动生成框架，实现逼真可控的交互式长时运动。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态运动生成 扩散模型 Transformer 参考运动 SMPL-X 运动预测 动作捕捉

📋 核心要点

现有方法在多模态全身运动生成中，难以兼顾多种模态输入和保证生成运动的连贯性与真实感。
OmniMotion-X利用自回归扩散Transformer，并引入参考运动作为条件信号，增强生成运动的一致性和风格。
OmniMotion-X在多项多模态任务上超越现有方法，并构建了大规模多模态运动数据集OmniMoCap-X。

📝 摘要（中文）

本文提出OmniMotion-X，一个多功能多模态全身人体运动生成框架，它以统一的序列到序列方式利用自回归扩散Transformer。OmniMotion-X高效地支持各种多模态任务，包括文本到运动、音乐到舞蹈、语音到手势，以及全局时空控制场景（例如，运动预测、中间帧生成、运动补全和关节/轨迹引导的合成），以及这些任务的灵活组合。具体来说，我们提出使用参考运动作为一种新的条件信号，从而显著增强了生成内容、风格和时间动态的一致性，这对于逼真的动画至关重要。为了处理多模态冲突，我们引入了一种渐进的由弱到强的混合条件训练策略。为了实现高质量的多模态训练，我们构建了迄今为止最大的统一多模态运动数据集OmniMoCap-X，整合了来自10个不同任务的28个公开MoCap资源，并以30 fps标准化为SMPL-X格式。为了确保详细和一致的注释，我们将序列渲染成视频，并使用GPT-4o自动生成结构化和分层字幕，捕捉低级动作和高级语义。广泛的实验评估证实，OmniMotion-X显著超越了现有方法，在多个多模态任务中展示了最先进的性能，并实现了逼真、连贯和可控的长时间运动的交互式生成。

🔬 方法详解

问题定义：现有方法在多模态全身运动生成任务中，难以同时处理多种模态的输入，并且生成的运动在连贯性、风格一致性和时间动态方面存在不足，导致生成的动画不够真实。此外，多模态输入之间可能存在冲突，进一步增加了生成高质量运动的难度。

核心思路：OmniMotion-X的核心思路是利用自回归扩散Transformer，并引入参考运动作为一种新的条件信号。参考运动能够提供关于运动风格、时间动态和整体结构的先验知识，从而引导生成器生成更连贯、更真实的运动。此外，采用渐进的由弱到强的混合条件训练策略，以解决多模态输入之间的冲突。

技术框架：OmniMotion-X采用序列到序列的框架，使用自回归扩散Transformer作为生成器。整体流程如下：首先，将各种模态的输入（例如，文本、音乐、语音、参考运动）编码成统一的特征表示。然后，将这些特征表示输入到自回归扩散Transformer中，逐步生成人体运动序列。最后，通过后处理步骤，将生成的运动序列转换为SMPL-X格式，以便进行可视化和评估。

关键创新：OmniMotion-X的关键创新点在于：1) 引入参考运动作为条件信号，显著提升了生成运动的连贯性和真实感；2) 提出渐进的由弱到强的混合条件训练策略，有效解决了多模态输入之间的冲突；3) 构建了大规模多模态运动数据集OmniMoCap-X，为多模态运动生成的研究提供了丰富的数据资源。

关键设计：OmniMotion-X的关键设计包括：1) 使用SMPL-X格式作为人体运动的统一表示；2) 采用自回归扩散Transformer作为生成器，能够逐步生成高质量的运动序列；3) 设计了专门的损失函数，以鼓励生成运动与参考运动在风格和时间动态上保持一致；4) 使用GPT-4o自动生成结构化和分层字幕，以确保数据集具有详细和一致的注释。

📊 实验亮点

OmniMotion-X在多个多模态任务上取得了显著的性能提升，超越了现有的最先进方法。例如，在文本到运动任务中，OmniMotion-X生成的运动在连贯性和真实感方面均优于现有方法。通过引入参考运动作为条件信号，OmniMotion-X能够生成更具风格化和个性化的运动，从而更好地满足用户的需求。OmniMoCap-X数据集的构建也为多模态运动生成的研究提供了重要的数据支持。

🎯 应用场景

OmniMotion-X具有广泛的应用前景，包括虚拟现实、游戏开发、动画制作、康复训练等领域。它可以用于生成逼真的人体动画，创建沉浸式的虚拟体验，辅助游戏角色设计，加速动画制作流程，以及为康复患者提供个性化的运动指导。该研究的成果将推动人机交互技术的发展，并为人们的生活带来更多便利和乐趣。

📄 摘要（原文）

This paper introduces OmniMotion-X, a versatile multimodal framework for whole-body human motion generation, leveraging an autoregressive diffusion transformer in a unified sequence-to-sequence manner. OmniMotion-X efficiently supports diverse multimodal tasks, including text-to-motion, music-to-dance, speech-to-gesture, and global spatial-temporal control scenarios (e.g., motion prediction, in-betweening, completion, and joint/trajectory-guided synthesis), as well as flexible combinations of these tasks. Specifically, we propose the use of reference motion as a novel conditioning signal, substantially enhancing the consistency of generated content, style, and temporal dynamics crucial for realistic animations. To handle multimodal conflicts, we introduce a progressive weak-to-strong mixed-condition training strategy. To enable high-quality multimodal training, we construct OmniMoCap-X, the largest unified multimodal motion dataset to date, integrating 28 publicly available MoCap sources across 10 distinct tasks, standardized to the SMPL-X format at 30 fps. To ensure detailed and consistent annotations, we render sequences into videos and use GPT-4o to automatically generate structured and hierarchical captions, capturing both low-level actions and high-level semantics. Extensive experimental evaluations confirm that OmniMotion-X significantly surpasses existing methods, demonstrating state-of-the-art performance across multiple multimodal tasks and enabling the interactive generation of realistic, coherent, and controllable long-duration motions.

OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册