Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

作者: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang

分类: cs.CV

发布日期: 2025-07-09

备注: Project Page: https://vankouf.github.io/MotionMillion/

🔗 代码/项目: GITHUB

💡 一句话要点

提出MotionMillion数据集与评估基准，实现文本到动作生成零样本泛化

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 文本到动作生成 零样本学习 人体运动生成 大规模数据集 运动评估基准

📋 核心要点

现有文本到动作生成方法在零样本泛化能力上存在不足，主要受限于训练数据集的规模。
论文核心在于构建大规模数据集MotionMillion和评估基准MotionMillion-Eval，并训练大模型以提升零样本泛化能力。
实验结果表明，该方法在领域外和复杂组合运动上表现出强大的泛化能力，显著提升了零样本运动生成效果。

📝 摘要（中文）

本文旨在推动文本到动作生成领域进入零样本泛化的新时代。为此，作者首先开发了一个高效的标注流程，并构建了迄今为止最大的人体运动数据集MotionMillion，该数据集包含超过2000小时和200万个高质量的运动序列。此外，作者提出了MotionMillion-Eval，这是用于评估零样本运动生成的最全面的基准。通过利用可扩展的架构，作者将模型扩展到70亿参数，并在MotionMillion-Eval上验证了其性能。结果表明，该模型对领域外和复杂的组合运动具有很强的泛化能力，标志着在零样本人体运动生成方面迈出了重要一步。

🔬 方法详解

问题定义：现有文本到动作生成模型受限于训练数据的规模，难以泛化到未见过的数据分布，尤其是在零样本场景下，对于领域外和复杂的组合运动生成效果不佳。缺乏一个全面的评估框架也阻碍了该领域的发展。

核心思路：通过构建大规模、高质量的运动数据集MotionMillion，并在此基础上训练参数量巨大的模型，从而提升模型对未见过的运动模式的泛化能力。同时，设计全面的评估基准MotionMillion-Eval，用于客观评估零样本运动生成的效果。

技术框架：整体框架包含数据收集与标注、模型训练和评估三个主要阶段。首先，通过高效的标注流程构建MotionMillion数据集。然后，利用可扩展的架构训练一个70亿参数的大模型。最后，在MotionMillion-Eval上评估模型的零样本运动生成能力。

关键创新：主要创新点在于构建了大规模高质量的MotionMillion数据集和全面的MotionMillion-Eval评估基准，为零样本文本到动作生成提供了数据基础和评估标准。同时，验证了通过扩展模型规模可以显著提升零样本泛化能力。

关键设计：论文中提到利用可扩展的架构训练模型，但没有提供具体的网络结构细节。损失函数和参数设置等技术细节也未在摘要中提及，属于未知信息。

🖼️ 关键图片

📊 实验亮点

论文构建了包含2000小时和200万个高质量运动序列的MotionMillion数据集，以及全面的MotionMillion-Eval评估基准。实验结果表明，通过训练70亿参数的大模型，可以显著提升零样本运动生成能力，在领域外和复杂组合运动上表现出强大的泛化能力。具体的性能数据和对比基线未在摘要中给出。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、动画制作、机器人控制等领域。例如，可以根据用户的文本描述，生成逼真的人体运动动画，增强虚拟角色的交互性。在机器人领域，可以使机器人根据指令执行复杂的动作序列，提高其灵活性和适应性。未来，该技术有望实现更加自然和智能的人机交互。

📄 摘要（原文）

Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理