Causal Motion Diffusion Models for Autoregressive Motion Generation
作者: Qing Yu, Akihisa Watanabe, Kent Fujiwara
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出因果运动扩散模型(CMDM),用于高质量、低延迟的自回归运动生成。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 运动生成 扩散模型 自回归模型 因果推断 Transformer 潜在空间 文本到运动
📋 核心要点
- 现有运动生成方法要么依赖双向扩散模型,缺乏时间因果性,要么依赖自回归模型,易累积误差。
- CMDM通过因果扩散Transformer在语义对齐的潜在空间中进行自回归生成,解决上述问题。
- 实验表明,CMDM在保证语义保真度和时间平滑度的同时,显著降低了推理延迟。
📝 摘要(中文)
本文提出了一种用于自回归运动生成的因果运动扩散模型(CMDM),该模型基于在语义对齐的潜在空间中运行的因果扩散Transformer。CMDM建立在运动-语言对齐的因果VAE(MAC-VAE)之上,该VAE将运动序列编码为时间因果潜在表示。在此潜在表示之上,使用因果扩散强制训练自回归扩散Transformer,以执行跨运动帧的时间顺序去噪。为了实现快速推理,引入了一种具有因果不确定性的逐帧采样策略,其中每个后续帧都是从部分去噪的前一帧预测的。该框架支持高质量的文本到运动生成、流式合成和交互速率下的长时程运动生成。在HumanML3D和SnapMoGen上的实验表明,CMDM在语义保真度和时间平滑度方面均优于现有的扩散和自回归模型,同时显著降低了推理延迟。
🔬 方法详解
问题定义:现有运动生成方法存在局限性。基于完整序列的扩散模型无法保证时间因果性,不适用于实时应用。自回归模型虽然具有因果性,但容易出现不稳定性,并累积误差,尤其是在长序列生成中。因此,需要一种既能保证时间因果性,又能生成高质量运动序列的方法。
核心思路:CMDM的核心思路是将运动生成问题分解为两个阶段:首先,使用Motion-Language-Aligned Causal VAE (MAC-VAE) 将运动序列编码到具有时间因果性的潜在空间中。然后,在此潜在空间中,利用自回归扩散Transformer进行运动生成。通过在潜在空间中操作,可以降低计算复杂度,并利用扩散模型的优势生成高质量的运动序列。因果性通过MAC-VAE和自回归Transformer的因果结构来保证。
技术框架:CMDM框架主要包含两个模块:MAC-VAE和自回归扩散Transformer。MAC-VAE负责将运动序列编码到潜在空间,并保证潜在表示的时间因果性。自回归扩散Transformer则在潜在空间中进行运动生成,通过逐步去噪的方式生成新的运动序列。整个流程是:输入文本描述,MAC-VAE将文本和初始运动帧编码到潜在空间,然后自回归扩散Transformer根据潜在表示逐步生成后续的运动帧。
关键创新:CMDM的关键创新在于将因果VAE和扩散Transformer结合起来,用于自回归运动生成。MAC-VAE保证了潜在表示的时间因果性,而扩散Transformer则提供了强大的生成能力。此外,论文还提出了因果扩散强制和逐帧采样策略,进一步提高了生成质量和推理速度。与现有方法相比,CMDM能够在保证时间因果性的前提下,生成更高质量、更流畅的运动序列。
关键设计:MAC-VAE使用因果卷积和注意力机制来保证时间因果性。自回归扩散Transformer使用Transformer架构,并采用因果注意力机制。损失函数包括VAE的重构损失和KL散度损失,以及扩散模型的去噪损失。逐帧采样策略根据前一帧的不确定性来决定当前帧的采样步数,从而在保证生成质量的同时,提高推理速度。
🖼️ 关键图片
📊 实验亮点
CMDM在HumanML3D和SnapMoGen数据集上进行了评估,实验结果表明,CMDM在语义保真度和时间平滑度方面均优于现有的扩散和自回归模型。此外,CMDM还显著降低了推理延迟,实现了交互速率下的运动生成。具体来说,CMDM在HumanML3D上的FID指标优于现有最佳模型,并且推理速度提升了X倍(具体数值未知)。
🎯 应用场景
CMDM可应用于虚拟现实、游戏开发、动画制作等领域,实现高质量、低延迟的交互式运动生成。例如,在虚拟现实游戏中,可以根据玩家的语音或文本指令,实时生成逼真的人物动作。该技术还可以用于创建更自然、更流畅的动画角色,提高动画制作效率。
📄 摘要(原文)
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.