ScaleMoGen: Autoregressive Next-Scale Prediction for Human Motion Generation
作者: Inwoo Hwang, Hojun Jang, Bing Zhou, Jian Wang, Young Min Kim, Chuan Guo
分类: cs.CV
发布日期: 2026-05-12
备注: Project page: https://inwoohwang.me/ScaleMoGen
💡 一句话要点
提出ScaleMoGen框架以解决人类动作生成中的细粒度预测问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人类动作生成 自回归模型 多尺度表示 运动量化 文本驱动生成
📋 核心要点
- 现有的自回归方法在动作生成中往往无法有效处理细粒度的运动细节,导致生成结果的质量不足。
- ScaleMoGen通过将动作生成视为粗到细的过程,采用多尺度离散标记的方式进行自回归预测,从而提升生成质量。
- 实验结果显示,ScaleMoGen在多个数据集上均取得了领先的性能,显著提高了生成动作的质量和细节保留能力。
📝 摘要(中文)
我们提出了ScaleMoGen,一个基于尺度的自回归框架,用于文本驱动的人类动作生成。与传统的自回归方法依赖于标准的下一个标记预测不同,ScaleMoGen将动作生成框架化为粗到细的过程。我们将3D动作量化为跨越多个骨骼-时间尺度的组合离散标记,通过自回归预测下一个尺度的标记图来学习生成动作。为了保持结构完整性,我们的动作标记器和量化器被明确设计,以确保每个尺度的离散标记严格保留骨骼层次。此外,我们采用位级量化和预测,能够有效扩展标记器词汇量,以保留动作细节并稳定优化。大量实验表明,ScaleMoGen在HumanML3D上达到了0.030的FID(相比MoMask的0.045)和在SnapMoGen数据集上达到了0.693的CLIP Score(相比MoMask++的0.685)。
🔬 方法详解
问题定义:本论文旨在解决传统自回归方法在生成细粒度人类动作时的不足,尤其是在运动细节和结构完整性方面的挑战。现有方法往往依赖于简单的下一个标记预测,难以捕捉复杂的运动模式。
核心思路:ScaleMoGen的核心思路是将动作生成过程视为一个粗到细的多尺度预测任务,通过量化3D动作为离散标记,逐步生成更高细节的运动信息。这样的设计使得生成的动作能够更好地保留骨骼结构和运动的层次性。
技术框架:ScaleMoGen的整体架构包括多个模块:首先是动作量化模块,将3D动作转换为离散标记;其次是自回归预测模块,逐步生成下一个尺度的标记图;最后是优化模块,采用位级量化和预测来提升生成的稳定性和细节保留。
关键创新:ScaleMoGen的主要创新在于其多尺度离散标记的自回归生成方式,显著不同于传统方法的单一尺度预测。这种方法不仅提高了生成的细节质量,还确保了运动的结构完整性。
关键设计:在技术细节上,ScaleMoGen采用了位级量化技术,以扩展标记器的词汇量,并设计了特定的损失函数来优化生成效果。此外,网络结构经过精心设计,以确保在不同尺度下的运动信息能够有效传递。
🖼️ 关键图片
📊 实验亮点
ScaleMoGen在HumanML3D数据集上取得了0.030的FID,显著优于MoMask的0.045;在SnapMoGen数据集上,CLIP Score达到了0.693,超过了MoMask++的0.685。这些结果表明,ScaleMoGen在动作生成质量和细节保留方面具有显著优势。
🎯 应用场景
该研究在动画制作、游戏开发和虚拟现实等领域具有广泛的应用潜力。通过高质量的人类动作生成,能够提升用户体验和交互效果。此外,ScaleMoGen的多尺度表示方法也为未来的动作编辑和合成提供了新的思路,可能推动相关技术的发展。
📄 摘要(原文)
We present ScaleMoGen, a scale-wise autoregressive framework for text-driven human motion generation. Unlike conventional autoregressive approaches that rely on standard next-token prediction, ScaleMoGen frames motion generation as a coarse-to-fine process. We quantize 3D motions into compositional discrete tokens across multiple skeletal-emporal scales of increasing granularity, learning to generate motion by autoregressively predicting next-scale token maps. To maintain structural integrity, our motion tokenizers and quantizers are explicitly designed so that discrete tokens at every scale strictly preserve the skeletal hierarchy. Additionally, we employ bitwise quantization and prediction, which efficiently scale up the tokenizer vocabulary to preserve motion details and stabilize optimization. Extensive experiments demonstrate that ScaleMoGen achieves state-of-the-art performance, establishing an FID of 0.030 (vs. 0.045 for MoMask) on HumanML3D and a CLIP Score of 0.693 (vs. 0.685 for MoMask++) on the SnapMoGen dataset. Furthermore, we demonstrate that our skeletal-temporal multi-scale representation naturally facilitates training-free, text-guided motion editing.