MoLingo: Motion-Language Alignment for Text-to-Motion Generation
作者: Yannan He, Garvita Tiwari, Xiaohan Zhang, Pankaj Bora, Tolga Birdal, Jan Eric Lenssen, Gerard Pons-Moll
分类: cs.CV
发布日期: 2025-12-15
备注: Project page: https://hynann.github.io/molingo/MoLingo.html
💡 一句话要点
MoLingo:通过运动-语言对齐实现文本到动作生成,达到新的SOTA。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 文本到动作生成 运动生成 扩散模型 语义对齐 交叉注意力
📋 核心要点
- 现有文本到动作生成方法在语义对齐的潜在空间构建和文本条件注入方面存在不足,影响了生成动作的真实性和文本一致性。
- MoLingo通过训练语义对齐的运动编码器,并结合多token交叉注意力机制,增强了潜在空间的语义表达能力和文本条件的有效性。
- 实验结果表明,MoLingo在人类运动生成任务上取得了显著的性能提升,并在标准指标和用户研究中达到了新的SOTA。
📝 摘要(中文)
我们提出了MoLingo,一个文本到动作(T2M)模型,它通过在连续潜在空间中去噪来生成逼真、栩栩如生的人类运动。最近的工作在整个潜在空间上一次性地或通过多个潜在变量自回归地执行潜在空间扩散。在本文中,我们研究如何使连续运动潜在变量上的扩散效果最佳。我们专注于两个问题:(1)如何构建语义对齐的潜在空间,使扩散更有效;(2)如何最好地注入文本条件,使运动紧密地遵循描述。我们提出了一个语义对齐的运动编码器,该编码器使用帧级别的文本标签进行训练,以便具有相似文本含义的潜在变量保持接近,这使得潜在空间更适合扩散。我们还将单token条件与多token交叉注意力方案进行了比较,发现交叉注意力提供了更好的运动真实感和文本-运动对齐。凭借语义对齐的潜在变量、自回归生成和交叉注意力文本条件,我们的模型在标准指标和用户研究中,在人类运动生成方面树立了新的技术水平。我们将发布我们的代码和模型,以供进一步研究和下游使用。
🔬 方法详解
问题定义:文本到动作生成(T2M)旨在根据给定的文本描述生成对应的人体运动序列。现有方法在生成逼真且与文本描述高度一致的运动方面存在挑战。主要痛点在于如何构建一个能够有效捕捉运动语义的潜在空间,以及如何将文本信息有效地融入到运动生成过程中。
核心思路:MoLingo的核心思路是构建一个语义对齐的运动潜在空间,并采用多token交叉注意力机制来增强文本条件的作用。通过语义对齐,使得潜在空间中的点能够更好地反映运动的语义信息,从而提高生成运动的质量。交叉注意力机制则能够更精细地捕捉文本描述中的关键信息,并将其融入到运动生成过程中。
技术框架:MoLingo的整体框架包括以下几个主要模块:1) 运动编码器:将运动序列编码到潜在空间中。2) 文本编码器:将文本描述编码为文本特征。3) 扩散模型:在潜在空间中进行去噪扩散,生成新的运动潜在表示。4) 运动解码器:将潜在表示解码为运动序列。在训练过程中,使用帧级别的文本标签来训练运动编码器,以实现语义对齐。在生成过程中,使用交叉注意力机制将文本特征融入到扩散模型的去噪过程中。
关键创新:MoLingo的关键创新在于:1) 提出了语义对齐的运动编码器,通过帧级别的文本标签训练,使得潜在空间能够更好地反映运动的语义信息。2) 采用了多token交叉注意力机制,能够更精细地捕捉文本描述中的关键信息,并将其融入到运动生成过程中。
关键设计:在语义对齐的运动编码器中,使用了对比学习损失来拉近具有相似文本含义的运动潜在表示。在交叉注意力机制中,使用了多个注意力头来捕捉文本描述中的不同方面的信息。扩散模型采用了标准的扩散模型架构,并使用U-Net作为去噪网络。具体的参数设置和网络结构细节在论文中有详细描述。
📊 实验亮点
MoLingo在HumanML3D和KIT-ML数据集上进行了评估,并在多个指标上取得了显著的性能提升。例如,在HumanML3D数据集上,MoLingo在FID指标上优于现有方法,并在用户研究中获得了更高的用户满意度评分。实验结果表明,MoLingo能够生成更逼真、更符合文本描述的运动序列。
🎯 应用场景
MoLingo在虚拟现实、游戏开发、动画制作等领域具有广泛的应用前景。它可以用于生成逼真的人体运动,从而增强虚拟角色的表现力,提高用户体验。此外,MoLingo还可以用于运动分析、康复训练等领域,通过分析人体运动数据,为相关研究提供支持。
📄 摘要(原文)
We introduce MoLingo, a text-to-motion (T2M) model that generates realistic, lifelike human motion by denoising in a continuous latent space. Recent works perform latent space diffusion, either on the whole latent at once or auto-regressively over multiple latents. In this paper, we study how to make diffusion on continuous motion latents work best. We focus on two questions: (1) how to build a semantically aligned latent space so diffusion becomes more effective, and (2) how to best inject text conditioning so the motion follows the description closely. We propose a semantic-aligned motion encoder trained with frame-level text labels so that latents with similar text meaning stay close, which makes the latent space more diffusion-friendly. We also compare single-token conditioning with a multi-token cross-attention scheme and find that cross-attention gives better motion realism and text-motion alignment. With semantically aligned latents, auto-regressive generation, and cross-attention text conditioning, our model sets a new state of the art in human motion generation on standard metrics and in a user study. We will release our code and models for further research and downstream usage.