Next-Scale Autoregressive Models for Text-to-Motion Generation
作者: Zhiwei Zheng, Shibo Jin, Lingjie Liu, Mingmin Zhao
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出MoScale:一种用于文本驱动人体动作生成的下一尺度自回归模型
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本到动作生成 自回归模型 分层生成 动作捕捉 运动生成
📋 核心要点
- 现有自回归模型在文本驱动动作生成中,难以对齐动作的时间结构,限制了生成效果。
- MoScale通过分层生成动作,从粗到细地逐步细化,建立更适合长程运动结构的因果层级关系。
- MoScale在文本到动作生成任务上取得了SOTA性能,并具有良好的训练效率和泛化能力。
📝 摘要(中文)
本文提出了一种名为MoScale的下一尺度自回归(AR)框架,用于文本条件下的动作生成。标准的下一token预测与动作生成所需的时间结构并不完全一致,而MoScale通过从粗到细的时间分辨率分层生成动作来解决这个问题。通过在最粗糙的尺度上提供全局语义,并逐步细化它们,MoScale建立了一个更适合长程运动结构因果层级关系。为了提高在有限的文本-动作数据下的鲁棒性,本文进一步结合了跨尺度分层细化,以改进每个尺度的初始预测,以及尺度内时间细化,用于选择性的双向重预测。MoScale实现了SOTA的文本到动作性能,具有很高的训练效率,可以有效地随模型大小进行扩展,并且可以零样本泛化到各种运动生成和编辑任务。
🔬 方法详解
问题定义:文本驱动的动作生成旨在根据给定的文本描述生成相应的动作序列。现有的自回归模型在处理这种任务时,通常采用下一token预测的方式,但这种方式难以捕捉动作序列中的长程依赖关系和时间结构,导致生成的动作不够自然和流畅。此外,有限的文本-动作数据也给模型的训练带来了挑战。
核心思路:MoScale的核心思路是采用一种下一尺度自回归框架,将动作生成过程分解为多个层次,从粗到细地逐步细化。在最粗糙的尺度上,模型生成全局的动作语义,然后在更细的尺度上逐步添加细节,从而建立一个更适合长程运动结构的因果层级关系。这种分层生成的方式可以更好地捕捉动作序列中的时间依赖关系,并提高生成动作的自然性和流畅性。
技术框架:MoScale的整体架构包括以下几个主要模块:1) 文本编码器:将输入的文本描述编码成一个向量表示。2) 分层动作生成器:从粗到细地生成动作序列,每个尺度上的生成都依赖于前一个尺度的输出。3) 跨尺度分层细化模块:用于改进每个尺度的初始预测,提高生成动作的准确性。4) 尺度内时间细化模块:用于选择性地进行双向重预测,进一步提高生成动作的流畅性。
关键创新:MoScale的关键创新在于提出了下一尺度自回归框架,将动作生成过程分解为多个层次,从而更好地捕捉动作序列中的时间依赖关系。与传统的下一token预测方式相比,MoScale能够生成更自然和流畅的动作序列。此外,MoScale还引入了跨尺度分层细化和尺度内时间细化模块,进一步提高了生成动作的准确性和流畅性。
关键设计:MoScale的关键设计包括:1) 采用Transformer架构作为分层动作生成器的基本构建块。2) 使用交叉熵损失函数来训练模型。3) 设计了跨尺度分层细化和尺度内时间细化模块,以提高生成动作的准确性和流畅性。具体来说,跨尺度分层细化模块通过将高层特征传递到低层来指导低层特征的生成,而尺度内时间细化模块则通过双向预测来纠正时间上的不一致性。
🖼️ 关键图片
📊 实验亮点
MoScale在文本到动作生成任务上取得了SOTA性能。实验结果表明,MoScale在多个指标上都优于现有的方法,例如FID、Diversity和Relevance。此外,MoScale还具有很高的训练效率,可以有效地随模型大小进行扩展,并且可以零样本泛化到各种运动生成和编辑任务。
🎯 应用场景
MoScale具有广泛的应用前景,例如:1) 虚拟现实和增强现实:可以用于生成逼真的人体动作,提高用户体验。2) 游戏开发:可以用于生成各种游戏角色的动作,提高游戏的趣味性。3) 动画制作:可以用于辅助动画师制作动画,提高制作效率。4) 机器人控制:可以用于控制机器人执行各种动作,提高机器人的智能化水平。
📄 摘要(原文)
Autoregressive (AR) models offer stable and efficient training, but standard next-token prediction is not well aligned with the temporal structure required for text-conditioned motion generation. We introduce MoScale, a next-scale AR framework that generates motion hierarchically from coarse to fine temporal resolutions. By providing global semantics at the coarsest scale and refining them progressively, MoScale establishes a causal hierarchy better suited for long-range motion structure. To improve robustness under limited text-motion data, we further incorporate cross-scale hierarchical refinement for improving per-scale initial predictions and in-scale temporal refinement for selective bidirectional re-prediction. MoScale achieves SOTA text-to-motion performance with high training efficiency, scales effectively with model size, and generalizes zero-shot to diverse motion generation and editing tasks.