Coordinate-Based Dual-Constrained Autoregressive Motion Generation
作者: Kang Ding, Hongsong Wang, Jie Gui, Liang Wang
分类: cs.CV
发布日期: 2026-04-09
备注: Code is available at: https://github.com/fly-dk/CDAMD
💡 一句话要点
提出基于坐标和双重约束的自回归运动生成框架CDAMD,提升文本到动作生成质量。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本到动作生成 自回归模型 扩散模型 运动合成 因果掩码
📋 核心要点
- 现有文本到动作生成方法,如扩散模型和自回归模型,分别存在误差放大和模式崩溃的问题。
- CDAMD框架以运动坐标为输入,采用自回归范式,并结合扩散模型的思想,提升运动生成的保真度。
- 引入双重约束因果掩码,利用运动token作为先验知识,指导自回归生成过程,提升语义一致性。
📝 摘要(中文)
本文提出了一种灵活、高保真且语义一致的文本到动作生成框架,名为基于坐标的双重约束自回归运动生成(CDAMD)。针对文本到动作生成中,扩散模型易出现误差放大,自回归模型易出现模式崩溃的问题,CDAMD以运动坐标作为输入,遵循自回归范式,并利用受扩散模型启发的MLP来增强预测运动的保真度。此外,引入双重约束因果掩码来指导自回归生成,其中运动token充当先验并与文本编码连接。由于基于坐标的运动合成研究较少,本文为文本到动作生成和运动编辑建立了新的基准。实验结果表明,该方法在这些基准上实现了最先进的保真度和语义一致性。
🔬 方法详解
问题定义:文本到动作生成旨在根据给定的文本描述生成相应的动作序列。现有的扩散模型在噪声预测过程中容易出现误差累积,导致生成质量下降;而自回归模型则容易陷入模式崩溃,生成单一化的动作。
核心思路:CDAMD的核心思路是结合自回归模型的序列生成能力和扩散模型在高保真度生成方面的优势,同时引入约束机制来避免模式崩溃。通过将运动坐标作为输入,并利用扩散模型中的MLP结构来增强自回归模型的生成能力,从而实现高质量的文本到动作生成。
技术框架:CDAMD框架主要包含以下几个模块:1) 文本编码器:将输入的文本描述转换为文本特征向量。2) 运动坐标输入:将动作表示为运动坐标序列。3) 自回归生成器:基于文本特征和历史运动坐标,预测下一个运动坐标。该生成器采用多层感知机(MLP)结构,并受到扩散模型的启发。4) 双重约束因果掩码:用于指导自回归生成过程,确保生成的动作序列符合因果关系,并利用运动token作为先验知识。
关键创新:CDAMD的关键创新在于:1) 提出了一种基于坐标的自回归运动生成方法,避免了运动离散化带来的问题。2) 引入了双重约束因果掩码,有效利用了运动token作为先验知识,提升了生成动作的语义一致性。3) 将扩散模型中的MLP结构引入到自回归生成器中,提高了生成动作的保真度。
关键设计:双重约束因果掩码的设计是关键。它不仅保证了自回归生成过程的因果性,还通过将运动token与文本编码连接,作为先验知识来指导生成。损失函数方面,可能采用了交叉熵损失或均方误差损失来优化生成器。具体的网络结构细节(如MLP的层数、神经元数量等)以及训练参数(如学习率、batch size等)在论文中应该有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CDAMD在文本到动作生成和运动编辑任务上均取得了state-of-the-art的性能。具体而言,CDAMD在保真度和语义一致性方面均优于现有的扩散模型和自回归模型。论文中可能给出了具体的指标数据,例如FID分数、语义相似度得分等,以量化CDAMD的性能提升。
🎯 应用场景
CDAMD框架具有广泛的应用前景,包括动画制作、虚拟现实、机器人控制和人机交互等领域。它可以根据文本描述自动生成逼真的角色动作,从而提高动画制作效率,增强虚拟现实体验,并为机器人提供更自然的运动控制方式。此外,该技术还可以应用于游戏开发、康复训练等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Text-to-motion generation has attracted increasing attention in the research community recently, with potential applications in animation, virtual reality, robotics, and human-computer interaction. Diffusion and autoregressive models are two popular and parallel research directions for text-to-motion generation. However, diffusion models often suffer from error amplification during noise prediction, while autoregressive models exhibit mode collapse due to motion discretization. To address these limitations, we propose a flexible, high-fidelity, and semantically faithful text-to-motion framework, named Coordinate-based Dual-constrained Autoregressive Motion Generation (CDAMD). With motion coordinates as input, CDAMD follows the autoregressive paradigm and leverages diffusion-inspired multi-layer perceptrons to enhance the fidelity of predicted motions. Furthermore, a Dual-Constrained Causal Mask is introduced to guide autoregressive generation, where motion tokens act as priors and are concatenated with textual encodings. Since there is limited work on coordinate-based motion synthesis, we establish new benchmarks for both text-to-motion generation and motion editing. Experimental results demonstrate that our approach achieves state-of-the-art performance in terms of both fidelity and semantic consistency on these benchmarks.