Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

📄 arXiv: 2603.19227v1 📥 PDF

作者: Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu

分类: cs.CV

发布日期: 2026-03-19

备注: Project Page: https://rheallyc.github.io/projects/motok GitHub: https://github.com/rheallyc/MoTok


💡 一句话要点

提出基于扩散的离散运动Tokenizer MoTok,桥接语义与运动学条件下的动作生成。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 运动生成 扩散模型 离散Token 运动学约束 语义条件 人机交互 动作捕捉

📋 核心要点

  1. 现有运动生成方法在语义理解和运动控制间存在trade-off,难以兼顾。
  2. 提出MoTok,利用扩散模型解耦语义抽象和运动重建,实现高效的离散token表示。
  3. 实验表明,MoTok在HumanML3D数据集上显著提升了运动生成的可控性和保真度。

📝 摘要(中文)

本文提出一个三阶段框架,用于结合连续扩散模型在运动学控制和离散token生成器在语义条件下的优势。该框架包括条件特征提取(感知)、离散token生成(规划)和基于扩散的运动合成(控制)。核心是MoTok,一个基于扩散的离散运动tokenizer,通过将运动恢复委托给扩散解码器,解耦了语义抽象和细粒度重建,从而在保持运动保真度的同时实现紧凑的单层token。对于运动学条件,粗略约束在规划期间指导token生成,而细粒度约束在控制期间通过基于扩散的优化来执行。这种设计防止了运动学细节扰乱语义token规划。在HumanML3D上,我们的方法显著提高了可控性和保真度,优于MaskControl,同时仅使用六分之一的token,将轨迹误差从0.72厘米降低到0.08厘米,FID从0.083降低到0.029。与在更强的运动学约束下性能下降的先前方法不同,我们的方法提高了保真度,将FID从0.033降低到0.014。

🔬 方法详解

问题定义:现有运动生成方法主要分为两类:连续扩散模型擅长运动学控制,但难以处理复杂的语义条件;离散token生成器擅长语义条件,但运动保真度较低。如何在语义理解和运动控制之间取得平衡,是本文要解决的问题。现有方法要么无法有效利用语义信息,要么在强运动学约束下性能下降。

核心思路:本文的核心思路是解耦语义抽象和细粒度运动重建。通过引入基于扩散的离散运动tokenizer (MoTok),将语义信息编码为离散token,然后利用扩散模型从这些token中恢复出高质量的运动序列。这种解耦允许模型分别优化语义理解和运动控制,从而提高整体性能。

技术框架:该框架包含三个阶段:1) 感知 (Perception):提取输入条件的特征。2) 规划 (Planning):使用MoTok生成离散运动token,该过程受到粗略运动学约束的引导。3) 控制 (Control):利用扩散模型,根据token和细粒度运动学约束,生成最终的运动序列。MoTok是该框架的核心组件。

关键创新:最重要的创新点在于MoTok,它是一个基于扩散的离散运动tokenizer。与传统的tokenizer不同,MoTok利用扩散模型作为解码器,将运动恢复的任务委托给扩散模型,从而可以使用更紧凑的单层token,同时保持运动的保真度。这与现有方法的本质区别在于,它将语义抽象和运动重建解耦,允许分别优化。

关键设计:MoTok使用扩散模型作为解码器,将离散token映射到连续的运动空间。在训练过程中,使用对抗损失来鼓励token的离散性,并使用重构损失来保证运动的保真度。在规划阶段,使用粗略的运动学约束来引导token的生成。在控制阶段,使用细粒度的运动学约束,通过扩散模型的优化过程来精确控制运动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoTok在HumanML3D数据集上显著优于现有方法。与MaskControl相比,MoTok仅使用六分之一的token,就将轨迹误差从0.72厘米降低到0.08厘米,FID从0.083降低到0.029。在更强的运动学约束下,MoTok的性能反而提升,将FID从0.033降低到0.014,表明其具有更好的可控性和鲁棒性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、机器人控制等领域。例如,可以根据用户的自然语言指令生成逼真的人体运动,或者控制机器人执行复杂的动作。该方法有望提升人机交互的自然性和智能化水平,并为运动生成领域带来新的发展方向。

📄 摘要(原文)

Prior motion generation largely follows two paradigms: continuous diffusion models that excel at kinematic control, and discrete token-based generators that are effective for semantic conditioning. To combine their strengths, we propose a three-stage framework comprising condition feature extraction (Perception), discrete token generation (Planning), and diffusion-based motion synthesis (Control). Central to this framework is MoTok, a diffusion-based discrete motion tokenizer that decouples semantic abstraction from fine-grained reconstruction by delegating motion recovery to a diffusion decoder, enabling compact single-layer tokens while preserving motion fidelity. For kinematic conditions, coarse constraints guide token generation during planning, while fine-grained constraints are enforced during control through diffusion-based optimization. This design prevents kinematic details from disrupting semantic token planning. On HumanML3D, our method significantly improves controllability and fidelity over MaskControl while using only one-sixth of the tokens, reducing trajectory error from 0.72 cm to 0.08 cm and FID from 0.083 to 0.029. Unlike prior methods that degrade under stronger kinematic constraints, ours improves fidelity, reducing FID from 0.033 to 0.014.