Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

📄 arXiv: 2507.07095v1 📥 PDF

作者: Ke Fan, Shunlin Lu, Minyue Dai, Runyi Yu, Lixing Xiao, Zhiyang Dou, Junting Dong, Lizhuang Ma, Jingbo Wang

分类: cs.CV

发布日期: 2025-07-09

备注: Project Page: https://vankouf.github.io/MotionMillion/

🔗 代码/项目: GITHUB


💡 一句话要点

提出MotionMillion数据集与评估基准,实现文本到动作生成零样本泛化

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 文本到动作生成 零样本学习 人体运动生成 大规模数据集 运动评估基准

📋 核心要点

  1. 现有文本到动作生成方法在零样本泛化能力上存在不足,主要受限于训练数据集的规模。
  2. 论文核心在于构建大规模数据集MotionMillion和评估基准MotionMillion-Eval,并训练大模型以提升零样本泛化能力。
  3. 实验结果表明,该方法在领域外和复杂组合运动上表现出强大的泛化能力,显著提升了零样本运动生成效果。

📝 摘要(中文)

本文旨在推动文本到动作生成领域进入零样本泛化的新时代。为此,作者首先开发了一个高效的标注流程,并构建了迄今为止最大的人体运动数据集MotionMillion,该数据集包含超过2000小时和200万个高质量的运动序列。此外,作者提出了MotionMillion-Eval,这是用于评估零样本运动生成的最全面的基准。通过利用可扩展的架构,作者将模型扩展到70亿参数,并在MotionMillion-Eval上验证了其性能。结果表明,该模型对领域外和复杂的组合运动具有很强的泛化能力,标志着在零样本人体运动生成方面迈出了重要一步。

🔬 方法详解

问题定义:现有文本到动作生成模型受限于训练数据的规模,难以泛化到未见过的数据分布,尤其是在零样本场景下,对于领域外和复杂的组合运动生成效果不佳。缺乏一个全面的评估框架也阻碍了该领域的发展。

核心思路:通过构建大规模、高质量的运动数据集MotionMillion,并在此基础上训练参数量巨大的模型,从而提升模型对未见过的运动模式的泛化能力。同时,设计全面的评估基准MotionMillion-Eval,用于客观评估零样本运动生成的效果。

技术框架:整体框架包含数据收集与标注、模型训练和评估三个主要阶段。首先,通过高效的标注流程构建MotionMillion数据集。然后,利用可扩展的架构训练一个70亿参数的大模型。最后,在MotionMillion-Eval上评估模型的零样本运动生成能力。

关键创新:主要创新点在于构建了大规模高质量的MotionMillion数据集和全面的MotionMillion-Eval评估基准,为零样本文本到动作生成提供了数据基础和评估标准。同时,验证了通过扩展模型规模可以显著提升零样本泛化能力。

关键设计:论文中提到利用可扩展的架构训练模型,但没有提供具体的网络结构细节。损失函数和参数设置等技术细节也未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含2000小时和200万个高质量运动序列的MotionMillion数据集,以及全面的MotionMillion-Eval评估基准。实验结果表明,通过训练70亿参数的大模型,可以显著提升零样本运动生成能力,在领域外和复杂组合运动上表现出强大的泛化能力。具体的性能数据和对比基线未在摘要中给出。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、动画制作、机器人控制等领域。例如,可以根据用户的文本描述,生成逼真的人体运动动画,增强虚拟角色的交互性。在机器人领域,可以使机器人根据指令执行复杂的动作序列,提高其灵活性和适应性。未来,该技术有望实现更加自然和智能的人机交互。

📄 摘要(原文)

Generating diverse and natural human motion sequences based on textual descriptions constitutes a fundamental and challenging research area within the domains of computer vision, graphics, and robotics. Despite significant advancements in this field, current methodologies often face challenges regarding zero-shot generalization capabilities, largely attributable to the limited size of training datasets. Moreover, the lack of a comprehensive evaluation framework impedes the advancement of this task by failing to identify directions for improvement. In this work, we aim to push text-to-motion into a new era, that is, to achieve the generalization ability of zero-shot. To this end, firstly, we develop an efficient annotation pipeline and introduce MotionMillion-the largest human motion dataset to date, featuring over 2,000 hours and 2 million high-quality motion sequences. Additionally, we propose MotionMillion-Eval, the most comprehensive benchmark for evaluating zero-shot motion generation. Leveraging a scalable architecture, we scale our model to 7B parameters and validate its performance on MotionMillion-Eval. Our results demonstrate strong generalization to out-of-domain and complex compositional motions, marking a significant step toward zero-shot human motion generation. The code is available at https://github.com/VankouF/MotionMillion-Codes.