MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks

📄 arXiv: 2411.19786v1 📥 PDF

作者: Yiming Wu, Wei Ji, Kecheng Zheng, Zicheng Wang, Dong Xu

分类: cs.CV, cs.CL, cs.LG

发布日期: 2024-11-29

备注: Five figures, six tables


💡 一句话要点

MoTe:学习运动-文本扩散模型,解决多任务运动生成问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动生成 文本生成 扩散模型 多模态学习 运动描述

📋 核心要点

  1. 现有方法主要集中于使用文本描述生成运动,忽略了反向任务,即运动描述生成文本。
  2. MoTe通过学习运动和文本的联合分布,统一处理文本-运动生成、运动描述和文本驱动的运动生成等任务。
  3. 实验结果表明,MoTe在文本到运动生成任务上表现优异,在运动描述任务上具有竞争力。

📝 摘要(中文)

本文提出了一种统一的多模态模型MoTe,它通过同时学习运动和文本的边缘、条件和联合分布来处理各种任务。MoTe通过简单地修改输入上下文,即可处理配对的文本-运动生成、运动描述和文本驱动的运动生成。具体来说,MoTe由三个组件组成:运动编码器-解码器(MED)、文本编码器-解码器(TED)和运动-文本扩散模型(MTDM)。MED和TED被训练用于提取潜在嵌入,并分别从提取的嵌入中重建运动序列和文本描述。MTDM则对输入上下文执行迭代去噪过程,以处理各种任务。在基准数据集上的实验结果表明,该方法在文本到运动生成方面表现出色,并在运动描述方面表现出竞争性的性能。

🔬 方法详解

问题定义:现有方法主要关注文本到运动的生成,忽略了运动到文本的生成(即运动描述)。此外,现有方法通常针对特定任务设计,缺乏通用性,难以同时处理多种运动生成任务。

核心思路:MoTe的核心思路是学习运动和文本的联合分布,从而能够通过条件概率推断实现多种任务。具体来说,通过扩散模型学习运动和文本的联合分布,并利用输入上下文的不同组合来控制生成过程,从而实现不同的任务。

技术框架:MoTe包含三个主要模块:运动编码器-解码器(MED)、文本编码器-解码器(TED)和运动-文本扩散模型(MTDM)。MED和TED分别用于将运动序列和文本描述编码为潜在嵌入,并从潜在嵌入中重建运动序列和文本描述。MTDM则基于扩散模型,学习运动和文本的联合分布,并通过迭代去噪过程实现各种生成任务。

关键创新:MoTe的关键创新在于提出了一个统一的多模态模型,能够同时处理文本-运动生成、运动描述和文本驱动的运动生成等多种任务。与以往针对特定任务设计的模型不同,MoTe通过学习运动和文本的联合分布,实现了任务的统一处理。

关键设计:MED和TED采用Transformer架构,用于提取运动和文本的潜在嵌入。MTDM采用扩散模型,通过迭代去噪过程生成运动和文本。损失函数包括重建损失和扩散模型的损失。具体的参数设置和网络结构细节在论文中有详细描述,此处未知。

📊 实验亮点

MoTe在HumanML3D和KIT Motion-Language Dataset等基准数据集上进行了评估。实验结果表明,MoTe在文本到运动生成任务上取得了显著的性能提升,超过了现有的方法。在运动描述任务上,MoTe也取得了具有竞争力的结果。具体的性能数据和提升幅度未知。

🎯 应用场景

MoTe具有广泛的应用前景,例如在虚拟现实、游戏开发、动画制作等领域,可以用于生成逼真的人体运动和相应的文本描述。此外,MoTe还可以用于人机交互,例如通过理解用户的运动来生成相应的文本反馈,或者通过文本指令来控制虚拟角色的运动。

📄 摘要(原文)

Recently, human motion analysis has experienced great improvement due to inspiring generative models such as the denoising diffusion model and large language model. While the existing approaches mainly focus on generating motions with textual descriptions and overlook the reciprocal task. In this paper, we present~\textbf{MoTe}, a unified multi-modal model that could handle diverse tasks by learning the marginal, conditional, and joint distributions of motion and text simultaneously. MoTe enables us to handle the paired text-motion generation, motion captioning, and text-driven motion generation by simply modifying the input context. Specifically, MoTe is composed of three components: Motion Encoder-Decoder (MED), Text Encoder-Decoder (TED), and Moti-on-Text Diffusion Model (MTDM). In particular, MED and TED are trained for extracting latent embeddings, and subsequently reconstructing the motion sequences and textual descriptions from the extracted embeddings, respectively. MTDM, on the other hand, performs an iterative denoising process on the input context to handle diverse tasks. Experimental results on the benchmark datasets demonstrate the superior performance of our proposed method on text-to-motion generation and competitive performance on motion captioning.