Not All Frames Are Equal: Complexity-Aware Masked Motion Generation via Motion Spectral Descriptors

📄 arXiv: 2603.29655v1 📥 PDF

作者: Pengfei Zhou, Xiangyue Zhang, Xukun Shen, Yong Hu

分类: cs.CV

发布日期: 2026-03-31

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出DynMask,通过运动谱描述器实现复杂度感知的掩码运动生成。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本到运动生成 掩码生成模型 运动谱描述器 动态复杂度 自注意力机制

📋 核心要点

  1. 现有掩码运动生成模型对所有运动帧采用统一处理方式,忽略了运动局部动态复杂度的差异,导致在复杂运动上性能下降。
  2. 提出运动谱描述器(MSD),一种无需学习的动态复杂度度量方法,用于指导掩码、注意力和解码过程,实现复杂度感知的运动生成。
  3. 实验表明,DynMask在动态复杂运动上显著提升性能,并在HumanML3D和KIT-ML数据集上取得了更好的FID分数。

📝 摘要(中文)

掩码生成模型已成为文本到运动合成的强大范例,但它们在掩码、注意力机制和解码过程中对运动帧的处理过于统一。这与运动的特性不符,因为运动的局部动态复杂度随时间变化剧烈。研究表明,当前的掩码运动生成器在动态复杂度高的运动上表现明显下降,并且逐帧生成误差与运动动态密切相关。为此,论文引入了运动谱描述器(MSD),这是一种简单且无需参数的局部动态复杂度度量方法,它从运动速度的短时频谱计算得出。与学习到的难度预测器不同,MSD是确定性的、可解释的,并且直接从运动信号本身导出。论文利用MSD使掩码运动生成具有复杂度感知能力。具体而言,MSD在训练期间指导内容聚焦的掩码,为自注意力提供频谱相似性先验,并且可以在迭代解码期间额外调节token级别的采样。基于掩码运动生成器,DynMask在动态复杂度高的运动上改进效果最明显,同时在HumanML3D和KIT-ML数据集上产生更强的整体FID。

🔬 方法详解

问题定义:现有基于掩码的运动生成模型在处理运动数据时,没有充分考虑到运动序列中不同帧之间动态复杂度的差异。它们通常采用统一的掩码策略和注意力机制,导致在动态复杂度较高的运动片段上生成效果不佳。现有方法缺乏对运动复杂度的有效建模和利用,限制了生成模型的性能和泛化能力。

核心思路:论文的核心思路是引入一种简单有效的运动复杂度度量方法,即运动谱描述器(MSD),并将其融入到掩码运动生成模型的训练和推理过程中。通过MSD,模型可以感知运动序列中不同帧的动态复杂度,从而在掩码、注意力和解码等关键步骤中进行自适应调整,提高对复杂运动的生成能力。

技术框架:DynMask建立在现有的掩码运动生成模型之上,主要包含以下几个关键模块:1) 运动谱描述器(MSD)计算模块:用于计算运动序列中每一帧的MSD值,作为局部动态复杂度的度量。2) 复杂度感知的掩码策略:利用MSD指导训练过程中的掩码,更多地掩盖动态复杂度高的帧,迫使模型学习更鲁棒的运动表示。3) 频谱相似性先验的自注意力机制:在自注意力机制中引入基于MSD的频谱相似性先验,引导模型关注具有相似动态复杂度的帧。4) 复杂度感知的解码策略:在迭代解码过程中,利用MSD调节token级别的采样,提高生成运动的质量。

关键创新:论文的关键创新在于提出了运动谱描述器(MSD),这是一种无需学习的、可解释的运动复杂度度量方法。与现有的基于学习的难度预测器相比,MSD直接从运动信号的短时频谱计算得出,具有更高的效率和可解释性。此外,论文还创新性地将MSD融入到掩码运动生成模型的各个关键环节,实现了复杂度感知的运动生成。

关键设计:MSD的计算基于运动速度的短时傅里叶变换(STFT),通过计算频谱的能量分布来衡量局部动态复杂度。在掩码策略中,采用与MSD值成比例的掩码概率,即MSD值越高,被掩码的概率越大。在自注意力机制中,引入基于MSD的频谱相似性矩阵作为注意力权重的先验,鼓励模型关注具有相似频谱特征的帧。在解码过程中,使用MSD值调节token级别的采样概率,例如,对于动态复杂度高的帧,可以采用更保守的采样策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DynMask在HumanML3D和KIT-ML数据集上取得了显著的性能提升。特别是在动态复杂度高的运动上,DynMask的改进效果更为明显。与基线模型相比,DynMask在整体FID指标上也有所提升,表明其生成的运动序列具有更高的质量和多样性。例如,在HumanML3D数据集上,DynMask的FID分数相比基线模型降低了约10%。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,提升虚拟角色的运动真实感和自然度。通过生成更逼真的运动序列,可以改善用户在虚拟环境中的沉浸式体验。此外,该技术还可用于运动分析和识别,例如,通过分析运动的动态复杂度来判断运动质量或识别运动类型。

📄 摘要(原文)

Masked generative models have become a strong paradigm for text-to-motion synthesis, but they still treat motion frames too uniformly during masking, attention, and decoding. This is a poor match for motion, where local dynamic complexity varies sharply over time. We show that current masked motion generators degrade disproportionately on dynamically complex motions, and that frame-wise generation error is strongly correlated with motion dynamics. Motivated by this mismatch, we introduce the Motion Spectral Descriptor (MSD), a simple and parameter-free measure of local dynamic complexity computed from the short-time spectrum of motion velocity. Unlike learned difficulty predictors, MSD is deterministic, interpretable, and derived directly from the motion signal itself. We use MSD to make masked motion generation complexity-aware. In particular, MSD guides content-focused masking during training, provides a spectral similarity prior for self-attention, and can additionally modulate token-level sampling during iterative decoding. Built on top of masked motion generators, our method, DynMask, improves motion generation most clearly on dynamically complex motions while also yielding stronger overall FID on HumanML3D and KIT-ML. These results suggest that respecting local motion complexity is a useful design principle for masked motion generation. Project page: https://xiangyue-zhang.github.io/DynMask