Scaling Large Motion Models with Million-Level Human Motions
作者: Ye Wang, Sipeng Zheng, Bin Cao, Qianshan Wei, Weishuai Zeng, Qin Jin, Zongqing Lu
分类: cs.CV, cs.LG
发布日期: 2024-10-04 (更新: 2025-05-30)
备注: ICML 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出MotionLib数据集以解决人类动作生成模型数据不足问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 人类动作生成 大规模数据集 动作模型 MotionLib 机器学习 虚拟现实 多模态学习
📋 核心要点
- 现有的人类动作生成模型面临数据不足的问题,限制了其通用性和性能。
- 本文提出MotionLib数据集,并基于此训练了大型动作模型 extit{M0},显著提升了模型的表现。
- 通过实验验证,强调了数据和模型规模扩展的重要性,为未来的研究奠定基础。
📝 摘要(中文)
受大型语言模型(LLMs)成功的启发,人类动作理解领域逐渐向开发大型动作模型转变。尽管已有一些进展,但当前的努力仍远未实现真正的通用模型,主要由于缺乏大规模高质量数据。为此,本文提出了MotionLib,这是首个百万级动作生成数据集,规模至少是现有数据集的15倍,并且配有层次化文本描述。利用MotionLib,我们训练了一个名为 extit{M0}的大型动作模型,展示了其在多种人类活动(包括未见过的活动)中的强大性能。通过系统性研究,我们首次强调了数据和模型规模扩展在推动动作生成中的重要性,并提供了实现这一目标的关键见解。
🔬 方法详解
问题定义:本文旨在解决人类动作生成模型在数据规模和质量上的不足,现有方法无法满足对通用性和多样性的需求。
核心思路:提出MotionLib数据集,规模达到百万级,并引入层次化文本描述,以丰富动作生成的上下文信息。通过训练大型模型 extit{M0},验证数据和模型规模扩展的有效性。
技术框架:整体架构包括数据采集、模型训练和评估三个主要阶段。数据采集阶段构建MotionLib,模型训练阶段使用该数据集训练 extit{M0},评估阶段则通过多种人类活动测试模型性能。
关键创新:MotionLib是首个百万级动作生成数据集,且引入了创新的Motionbook编码方法,显著提升了动作表示的能力。
关键设计:Motionbook采用紧凑且无损的特征表示动作,设计了无查找的2D动作标记器,能够保留细粒度的动作细节并扩展代码本容量,从而增强了动作标记的表现力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于MotionLib训练的模型 extit{M0}在多种人类活动上表现出色,尤其是在未见过的活动中,性能提升显著。与现有基线相比,模型在动作生成的准确性和多样性上均有明显提高。
🎯 应用场景
该研究的潜在应用领域包括虚拟现实、游戏开发、动画制作以及人机交互等。通过提供更高质量的动作生成模型,能够提升这些领域中的用户体验和交互效果,推动相关技术的发展。
📄 摘要(原文)
Inspired by the recent success of LLMs, the field of human motion understanding has increasingly shifted toward developing large motion models. Despite some progress, current efforts remain far from achieving truly generalist models, primarily due to the lack of massive high-quality data. To address this gap, we present MotionLib, the first million-level dataset for motion generation, which is at least 15$\times$ larger than existing counterparts and enriched with hierarchical text descriptions. Using MotionLib, we train a large motion model named \projname, demonstrating robust performance across a wide range of human activities, including unseen ones. Through systematic investigation, for the first time, we highlight the importance of scaling both data and model size for advancing motion generation, along with key insights to achieve this goal. To better integrate the motion modality, we propose Motionbook, an innovative motion encoding approach including (1) a compact yet lossless feature to represent motions; (2) a novel 2D lookup-free motion tokenizer that preserves fine-grained motion details while expanding codebook capacity, significantly enhancing the representational power of motion tokens. We believe this work lays the groundwork for developing more versatile and powerful motion generation models in the future. For further details, visit https://beingbeyond.github.io/Being-M0/.