MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

📄 arXiv: 2410.10780v4 📥 PDF

作者: Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Korrawe Karunratanakul, Pu Wang, Hongfei Xue, Chen Chen, Chuan Guo, Junli Cao, Jian Ren, Sergey Tulyakov

分类: cs.CV

发布日期: 2024-10-14 (更新: 2025-10-18)

备注: Camera Ready Version. ICCV2025 (Oral). Change name from ControlMM to MaskControl. project page https://exitudio.github.io/ControlMM-page


💡 一句话要点

MaskControl:为生成式掩码运动模型引入时空控制,提升控制精度和运动质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 运动生成 掩码模型 时空控制 扩散模型 Logits正则化 Logits优化 可微采样

📋 核心要点

  1. 现有运动扩散模型在空间可控的文本到运动生成方面取得了进展,但难以在保持高质量运动生成的同时实现高精度控制。
  2. MaskControl的核心思想是在训练和推理阶段分别通过Logits Regularizer和Logit Optimization来调整和优化logits,从而精确控制运动生成。
  3. 实验结果表明,MaskControl在运动质量和控制精度上均优于现有方法,FID降低约77%,平均误差从1.08降至0.91。

📝 摘要(中文)

本文提出MaskControl,首个为生成式掩码运动模型引入可控性的方法。该方法包含两项关键创新:首先,Logits Regularizer在训练时隐式地扰动logits,使运动token的分布与受控关节位置对齐,同时正则化类别token预测,确保生成高质量的运动。其次,Logit Optimization在推理时显式地优化预测的logits,直接重塑token分布,迫使生成的运动精确地与受控关节位置对齐。此外,本文引入Differentiable Expectation Sampling (DES)来解决logits regularizer和优化中遇到的不可微分布采样问题。大量实验表明,MaskControl优于现有方法,实现了卓越的运动质量(FID降低约77%)和更高的控制精度(平均误差0.91 vs. 1.08)。MaskControl还支持多种应用,包括任意关节任意帧控制、身体部位时间线控制和零样本目标控制。

🔬 方法详解

问题定义:现有基于扩散模型的运动生成方法虽然能实现空间可控的文本到运动生成,但往往难以兼顾运动质量和控制精度。具体来说,模型难以精确控制特定关节在特定时间的位置,生成的运动可能存在不自然或不协调的情况。现有方法在控制精度方面存在提升空间。

核心思路:MaskControl的核心思路是通过在训练和推理阶段对logits进行调整和优化,从而实现对运动生成的精确控制。在训练阶段,通过Logits Regularizer隐式地将运动token的分布与受控关节位置对齐;在推理阶段,通过Logit Optimization显式地优化预测的logits,直接重塑token分布。

技术框架:MaskControl建立在生成式掩码运动模型的基础上。其主要流程包括:1) 训练阶段:使用Logits Regularizer对logits进行正则化,使运动token的分布与受控关节位置对齐。同时,使用Differentiable Expectation Sampling (DES)解决不可微采样问题。2) 推理阶段:使用Logit Optimization显式地优化预测的logits,迫使生成的运动精确地与受控关节位置对齐。同样,使用DES解决不可微采样问题。

关键创新:MaskControl的关键创新在于提出了Logits Regularizer和Logit Optimization两种方法,分别在训练和推理阶段对logits进行调整和优化,从而实现对运动生成的精确控制。与现有方法相比,MaskControl能够更精确地控制特定关节在特定时间的位置,同时保持较高的运动质量。此外,Differentiable Expectation Sampling (DES)的引入解决了logits regularizer和优化中遇到的不可微分布采样问题。

关键设计:Logits Regularizer通过在训练时添加一个正则化项来约束logits,该正则化项的目标是使运动token的分布与受控关节位置对齐。Logit Optimization通过在推理时迭代地优化logits,使其生成的运动尽可能接近目标关节位置。Differentiable Expectation Sampling (DES)通过使用Gumbel-Softmax技巧来近似采样过程,从而实现可微性。具体的损失函数和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MaskControl在运动质量和控制精度上均优于现有方法。实验结果表明,MaskControl能够显著降低FID(降低约77%),同时提高控制精度(平均误差从1.08降至0.91)。此外,MaskControl还支持多种应用,包括任意关节任意帧控制、身体部位时间线控制和零样本目标控制,展示了其强大的可控性和泛化能力。

🎯 应用场景

MaskControl具有广泛的应用前景,例如:1) 动画制作:可以精确控制角色运动,提高动画制作效率和质量。2) 游戏开发:可以生成更逼真、更可控的角色运动,提升游戏体验。3) 虚拟现实/增强现实:可以实现更自然的虚拟角色交互。4) 运动康复:可以辅助设计个性化的康复训练方案,并实时监控患者的运动姿态。

📄 摘要(原文)

Recent advances in motion diffusion models have enabled spatially controllable text-to-motion generation. However, these models struggle to achieve high-precision control while maintaining high-quality motion generation. To address these challenges, we propose MaskControl, the first approach to introduce controllability to the generative masked motion model. Our approach introduces two key innovations. First, \textit{Logits Regularizer} implicitly perturbs logits at training time to align the distribution of motion tokens with the controlled joint positions, while regularizing the categorical token prediction to ensure high-fidelity generation. Second, \textit{Logit Optimization} explicitly optimizes the predicted logits during inference time, directly reshaping the token distribution that forces the generated motion to accurately align with the controlled joint positions. Moreover, we introduce \textit{Differentiable Expectation Sampling (DES)} to combat the non-differential distribution sampling process encountered by logits regularizer and optimization. Extensive experiments demonstrate that MaskControl outperforms state-of-the-art methods, achieving superior motion quality (FID decreases by ~77\%) and higher control precision (average error 0.91 vs. 1.08). Additionally, MaskControl enables diverse applications, including any-joint-any-frame control, body-part timeline control, and zero-shot objective control. Video visualization can be found at https://www.ekkasit.com/ControlMM-page/