ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation Model
作者: Shunlin Lu, Jingbo Wang, Zeyu Lu, Ling-Hao Chen, Wenxun Dai, Junting Dong, Zhiyang Dou, Bo Dai, Ruimao Zhang
分类: cs.CV, cs.LG
发布日期: 2024-12-19
💡 一句话要点
ScaMo:探索自回归运动生成模型中的缩放定律
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 运动生成 缩放定律 自回归模型 Transformer 矢量量化 Motion FSQ-VAE
📋 核心要点
- 现有运动生成模型缺乏对缩放定律的系统研究,难以有效利用计算资源。
- 提出基于Motion FSQ-VAE和文本前缀自回归Transformer的可扩展运动生成框架。
- 实验验证了运动生成中缩放定律的存在,并预测了给定计算预算下的最优模型参数。
📝 摘要(中文)
本文研究了运动生成领域中的缩放定律。我们提出了一个可扩展的运动生成框架,该框架包含运动标记器Motion FSQ-VAE和一个文本前缀自回归Transformer。通过全面的实验,我们观察到该系统的缩放行为。我们首次证实了运动生成背景下缩放定律的存在。具体而言,我们的结果表明,前缀自回归模型的归一化测试损失与计算预算之间存在对数关系。此外,我们还证实了非词汇表参数、词汇表参数和数据tokens与计算预算之间分别存在幂律关系。利用缩放定律,我们预测了计算预算为$1e18$时的最佳Transformer大小、词汇表大小和数据需求。当使用最佳模型大小、词汇表大小和所需数据进行训练时,系统的测试损失与预测的测试损失完全一致,从而验证了缩放定律。
🔬 方法详解
问题定义:现有运动生成模型缺乏对缩放定律的深入研究,导致在模型设计和训练过程中,难以有效地利用计算资源,无法根据计算预算合理地选择模型大小、词汇表大小和数据规模,从而限制了模型性能的提升。
核心思路:本文的核心思路是借鉴自然语言处理和计算机视觉领域中已验证的缩放定律,探索其在运动生成领域的适用性。通过构建一个可扩展的运动生成框架,并进行大量的实验,观察模型性能与计算预算、模型参数和数据规模之间的关系,从而验证缩放定律的存在,并利用该定律指导模型设计和训练。
技术框架:该框架主要包含两个核心模块:Motion FSQ-VAE和文本前缀自回归Transformer。Motion FSQ-VAE负责将连续的运动数据离散化为tokens,类似于NLP中的词汇表。文本前缀自回归Transformer则利用文本描述作为前缀,生成相应的运动序列。整个流程可以概括为:首先,使用Motion FSQ-VAE将运动数据编码为离散的tokens;然后,将文本描述和运动tokens输入到Transformer中进行训练;最后,利用训练好的Transformer,根据给定的文本描述生成运动序列。
关键创新:该论文的关键创新在于首次在运动生成领域验证了缩放定律的存在。具体而言,论文证实了模型测试损失与计算预算之间存在对数关系,以及非词汇表参数、词汇表参数和数据tokens与计算预算之间存在幂律关系。这一发现为运动生成模型的设计和训练提供了重要的理论指导。
关键设计:Motion FSQ-VAE采用矢量量化技术,将连续的运动数据映射到离散的码本中。Transformer采用标准的自回归结构,并使用文本描述作为前缀来引导运动生成。实验中,作者探索了不同模型大小、词汇表大小和数据规模对模型性能的影响,并利用缩放定律预测了给定计算预算下的最优参数配置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,前缀自回归模型的归一化测试损失与计算预算之间存在对数关系,验证了运动生成领域中缩放定律的存在。利用该定律,论文预测了计算预算为$1e18$时的最优模型参数,并在实际训练中验证了预测的准确性,测试损失与预测值高度吻合。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,通过文本描述自动生成逼真自然的运动序列,提高内容创作效率和用户体验。未来,该研究可以进一步扩展到更复杂的运动场景和更多模态的输入,例如语音、图像等。
📄 摘要(原文)
The scaling law has been validated in various domains, such as natural language processing (NLP) and massive computer vision tasks; however, its application to motion generation remains largely unexplored. In this paper, we introduce a scalable motion generation framework that includes the motion tokenizer Motion FSQ-VAE and a text-prefix autoregressive transformer. Through comprehensive experiments, we observe the scaling behavior of this system. For the first time, we confirm the existence of scaling laws within the context of motion generation. Specifically, our results demonstrate that the normalized test loss of our prefix autoregressive models adheres to a logarithmic law in relation to compute budgets. Furthermore, we also confirm the power law between Non-Vocabulary Parameters, Vocabulary Parameters, and Data Tokens with respect to compute budgets respectively. Leveraging the scaling law, we predict the optimal transformer size, vocabulary size, and data requirements for a compute budget of $1e18$. The test loss of the system, when trained with the optimal model size, vocabulary size, and required data, aligns precisely with the predicted test loss, thereby validating the scaling law.