Multi-scale Coarse-to-fine Modeling for Test-time Human Motion Control

📄 arXiv: 2605.14935v1 📥 PDF

作者: Nhat Le, Daochang Liu, Anh Nguyen, Ajmal Mian

分类: cs.CV

发布日期: 2026-05-14


💡 一句话要点

提出MSCoT,一种用于测试时人体运动控制的多尺度粗到精模型。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动控制 多尺度建模 粗到精方法 文本到运动生成 测试时优化

📋 核心要点

  1. 现有方法在人体运动控制中依赖迭代去噪或特定控制信号模块,效率较低且缺乏灵活性。
  2. MSCoT采用多尺度粗到精策略,将运动离散化为分层token序列,并使用token引导和优化实现快速控制。
  3. 实验表明,MSCoT在运动质量、控制精度和推理速度方面均优于现有方法,尤其是在HumanML3D数据集上。

📝 摘要(中文)

本文提出MSCoT,一种用于测试时人体运动合成与控制的多尺度、粗到精模型。与依赖多次迭代去噪/token预测步骤或为特定控制信号定制的模块的现有方法不同,MSCoT将运动离散化为多尺度分层表示,并在每个时间尺度上以粗到精的方式预测整个token序列。基于这种粗到精的范式,我们提出了一种高效的多尺度token引导策略,克服了离散采样的挑战,并将token分布引导至控制目标,从而实现快速灵活的控制。为了解决离散码本的局限性,一个轻量级的token优化器进一步将连续残差添加到离散token嵌入中,并允许可微的测试时优化,以确保与控制目标的精确对齐。MSCoT能够生成高质量的运动,与控制约束一致,同时提供比基于扩散的方法快得多的采样速度。在流行的基准测试上的实验表明,MSCoT在可控的文本到运动生成方面优于现有的基线,具有更好的运动质量(FID改进48%),更高的控制精度(平均误差降低61%),以及在HumanML3D上快10倍的推理速度。

🔬 方法详解

问题定义:论文旨在解决测试时人体运动的精确控制和快速生成问题。现有方法,如基于扩散模型的方法,通常需要多次迭代的去噪或token预测步骤,计算成本高昂,推理速度慢。此外,一些方法针对特定控制信号设计,缺乏通用性和灵活性。

核心思路:论文的核心思路是将人体运动表示为多尺度分层token序列,并采用粗到精的预测方式。首先在粗尺度上预测整体运动,然后在更精细的尺度上逐步优化,从而实现快速且精确的运动控制。这种方法避免了迭代过程,提高了效率,同时通过token引导和优化,增强了对控制信号的响应能力。

技术框架:MSCoT模型主要包含三个关键模块:多尺度运动离散化模块、多尺度token预测模块和token优化模块。首先,运动数据被离散化为多尺度token序列。然后,多尺度token预测模块以粗到精的方式预测这些token。最后,token优化模块通过添加连续残差来优化离散token嵌入,以实现更精确的控制。整个框架允许在测试时进行可微优化,从而更好地对齐控制目标。

关键创新:MSCoT的关键创新在于其多尺度粗到精的建模方式和多尺度token引导策略。与传统的单尺度或迭代方法不同,MSCoT能够同时考虑运动的整体结构和局部细节,从而实现更高效和精确的控制。此外,token引导策略克服了离散采样的挑战,使得模型能够快速响应控制信号。

关键设计:多尺度运动离散化采用VQ-VAE或其他类似技术,将运动数据映射到离散的token空间。多尺度token预测模块可以使用Transformer或其他序列模型。Token优化模块通过添加可学习的连续残差来微调token嵌入。损失函数包括重构损失、控制损失和正则化项。具体参数设置和网络结构的选择可能需要根据具体数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MSCoT在HumanML3D数据集上实现了显著的性能提升,FID指标改进了48%,控制精度提高了61%,推理速度提升了10倍。这些结果表明,MSCoT在可控人体运动生成方面具有显著优势,能够生成更高质量、更精确且更快速的运动。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、动画制作、机器人控制等领域。例如,可以根据用户的文本描述或动作指令,快速生成逼真且可控的人体运动,从而提升用户体验和创作效率。未来,该技术有望进一步拓展到其他类型运动的生成和控制,例如车辆运动、动物运动等。

📄 摘要(原文)

We present MSCoT, a multi-scale, coarse-to-fine model for test-time human motion synthesis and control. Unlike recent approaches that rely on multiple iterative denoising/token-prediction steps, or modules tailored for specific control signals, MSCoT discretizes motion into a multi-scale hierarchical representation and predicts the entire token sequence at each temporal scale in a coarse-to-fine fashion. Building on this coarse-to-fine paradigm, we propose an efficient multi-scale token guidance strategy that overcomes the challenge of discrete sampling and steers the token distribution towards the control goals, allowing for fast and flexible control. To address the limitations of a discrete codebook, a lightweight token refiner further adds continuous residuals to the discrete token embeddings and allows differentiable test-time refinement optimization to ensure precise alignment with the control objectives. MSCoT is able to produce quality motions, consistent with the control constraints, while offering substantially faster sampling than diffusion-based approaches. Experiments on popular benchmarks demonstrate state-of-the-art controllable text-to-motion generation performance of MSCoT over existing baselines, with better motion quality (48% FID improvement), higher control accuracy (-61% avg error), and $10 \times$ faster inference speed on HumanML3D.