Causal Motion Diffusion Models for Autoregressive Motion Generation
作者: Qing Yu, Akihisa Watanabe, Kent Fujiwara
分类: cs.CV
发布日期: 2026-02-26
备注: Accepted to CVPR 2026, Project website: https://yu1ut.com/CMDM-HP/
💡 一句话要点
提出因果运动扩散模型(CMDM),用于解决自回归运动生成中的不稳定性与延迟问题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 运动生成 扩散模型 自回归模型 因果推理 文本到运动
📋 核心要点
- 现有运动生成方法或依赖双向扩散模型,缺乏时间因果性,或使用自回归模型,易累积误差且不稳定。
- CMDM利用因果VAE将运动编码到时间因果潜在空间,并在此基础上使用因果扩散Transformer进行自回归生成。
- 实验表明,CMDM在HumanML3D和SnapMoGen数据集上,在保真度和流畅度上优于现有方法,并显著降低推理延迟。
📝 摘要(中文)
本文提出了一种用于自回归运动生成的统一框架,名为因果运动扩散模型(CMDM)。该模型基于一个在语义对齐的潜在空间中运行的因果扩散Transformer。CMDM构建于运动-语言对齐的因果VAE (MAC-VAE)之上,该VAE将运动序列编码为时间因果潜在表示。在此潜在表示之上,使用因果扩散强制训练自回归扩散Transformer,以执行跨运动帧的时间顺序去噪。为了实现快速推理,引入了一种具有因果不确定性的逐帧采样策略,其中每个后续帧都是从部分去噪的前一帧预测的。该框架支持高质量的文本到运动生成、流式合成和交互速率下的长时程运动生成。在HumanML3D和SnapMoGen上的实验表明,CMDM在语义保真度和时间平滑度方面均优于现有的扩散和自回归模型,同时显著降低了推理延迟。
🔬 方法详解
问题定义:现有的运动生成方法存在局限性。基于完整序列扩散的模型是双向的,无法保证时间上的因果关系,不适用于实时应用。而传统的自回归模型容易出现不稳定性,并且会累积误差,导致生成质量下降。因此,需要一种既能保证时间因果性,又能避免误差累积的运动生成方法。
核心思路:CMDM的核心思路是将运动生成过程分解为两个阶段:首先,使用运动-语言对齐的因果VAE (MAC-VAE)将运动序列编码到时间因果的潜在空间中。然后,在此潜在空间中,使用自回归扩散Transformer进行运动生成,通过因果扩散强制保证生成过程的时间因果性。这种设计旨在结合VAE的稳定性和扩散模型的生成能力,同时避免自回归模型的误差累积问题。
技术框架:CMDM的整体框架包括以下几个主要模块:1) MAC-VAE编码器:将运动序列和文本描述编码到共享的潜在空间中,并保证潜在表示的时间因果性。2) 自回归扩散Transformer:在潜在空间中进行运动生成,通过因果扩散强制保证生成过程的时间因果性。3) 逐帧采样策略:为了加速推理,采用了一种具有因果不确定性的逐帧采样策略,其中每个后续帧都是从部分去噪的前一帧预测的。
关键创新:CMDM的关键创新在于:1) Motion-Language-Aligned Causal VAE (MAC-VAE):通过VAE学习运动序列的因果潜在表示,为后续的自回归生成提供稳定的基础。2) Causal Diffusion Forcing:在扩散Transformer的训练过程中,通过因果扩散强制保证生成过程的时间因果性。3) Frame-wise Sampling Schedule with Causal Uncertainty:设计了一种高效的逐帧采样策略,加速推理过程。
关键设计:MAC-VAE使用Transformer结构进行编码,并采用因果注意力机制保证时间因果性。扩散Transformer使用标准的Transformer结构,并采用因果掩码保证自回归生成。损失函数包括VAE的重构损失和KL散度损失,以及扩散模型的去噪损失。逐帧采样策略通过控制去噪程度来平衡生成质量和推理速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CMDM在HumanML3D和SnapMoGen数据集上,在语义保真度和时间平滑度方面均优于现有的扩散和自回归模型。更重要的是,CMDM显著降低了推理延迟,实现了交互速率下的运动生成,使其更适用于实时应用。
🎯 应用场景
CMDM可应用于虚拟现实、游戏、动画制作等领域,实现高质量的文本驱动角色动画生成、实时动作捕捉和长时程运动预测。该技术能够显著提升人机交互的自然性和流畅性,并为内容创作提供更高效的工具。
📄 摘要(原文)
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.