PackDiT: Joint Human Motion and Text Generation via Mutual Prompting
作者: Zhongyu Jiang, Wenhao Chai, Zhuoran Zhou, Cheng-Yen Yang, Hsiang-Wei Huang, Jenq-Neng Hwang
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-01-27
💡 一句话要点
PackDiT:通过互提示实现联合人体运动和文本生成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 人体运动生成 文本生成 扩散模型 多模态融合 互提示学习 运动预测 HumanML3D
📋 核心要点
- 现有方法主要关注文本到运动的单向生成,忽略了运动到文本及联合生成能力,限制了多模态对齐和无条件生成。
- PackDiT通过互提示模块集成多个扩散Transformer,实现运动生成、运动预测、文本生成等多种任务的联合处理。
- 实验表明,PackDiT在文本到运动生成上达到SOTA,FID为0.106,并在运动预测和运动到文本生成上表现出色。
📝 摘要(中文)
扩散模型的发展显著推动了人体运动生成。目前的研究主要集中于基于文本提示生成运动序列,即文本到运动的生成。然而,运动和文本的双向生成,例如运动到文本以及文本到运动,在很大程度上尚未被探索。这种能力对于对齐不同的模态至关重要,并支持无条件生成。本文提出了PackDiT,这是第一个能够同时执行多种任务的基于扩散的生成模型,包括运动生成、运动预测、文本生成、文本到运动、运动到文本以及联合运动-文本生成。我们的核心创新是利用互提示模块来无缝集成不同模态的多个扩散Transformer(DiT)。我们在HumanML3D数据集上训练PackDiT,在文本到运动生成方面取得了最先进的性能,FID分数为0.106,并在运动预测和中间任务中取得了优异的结果。我们的实验进一步证明,扩散模型对于运动到文本生成是有效的,其性能与自回归模型相当。
🔬 方法详解
问题定义:现有的人体运动生成方法主要集中在文本到运动的单向生成任务上,缺乏对运动到文本生成以及联合运动-文本生成能力的研究。这限制了模型在多模态信息对齐和无条件生成方面的应用。现有方法难以同时处理多种模态和任务,导致模型泛化能力受限。
核心思路:PackDiT的核心思路是利用多个扩散Transformer(DiT)分别处理不同的模态(运动和文本),并通过互提示模块实现模态间的信息交互和融合。这种设计使得模型能够同时进行运动生成、运动预测、文本生成、文本到运动、运动到文本以及联合运动-文本生成等多种任务。互提示机制允许模型在不同模态之间传递信息,从而提高生成质量和一致性。
技术框架:PackDiT的整体架构包含多个DiT模块,每个模块负责处理一种模态(例如,运动或文本)。这些DiT模块通过互提示模块连接,实现信息交换。训练过程中,模型同时学习不同任务,例如文本到运动和运动到文本。推理时,可以根据输入选择相应的任务进行生成。整个框架基于扩散模型,通过逐步去噪的方式生成高质量的运动和文本序列。
关键创新:PackDiT最重要的技术创新点在于互提示模块的设计。该模块允许不同模态的DiT模块之间进行信息交互,从而实现多任务联合学习和生成。与传统的单向生成模型相比,PackDiT能够更好地利用多模态信息,提高生成质量和一致性。此外,PackDiT是第一个能够同时执行多种运动和文本生成任务的扩散模型。
关键设计:PackDiT的关键设计包括:1) 使用多个DiT模块分别处理不同模态;2) 设计互提示模块实现模态间信息交互;3) 采用扩散模型进行生成,通过逐步去噪提高生成质量;4) 在HumanML3D数据集上进行训练,并使用FID等指标评估性能。具体的网络结构和参数设置在论文中有详细描述,损失函数的设计旨在平衡不同任务之间的性能。
🖼️ 关键图片
📊 实验亮点
PackDiT在HumanML3D数据集上取得了显著的性能提升。在文本到运动生成任务中,PackDiT的FID分数为0.106,达到了最先进的水平。此外,PackDiT在运动预测和运动到文本生成任务中也表现出色,与现有的自回归模型相比具有竞争力。这些实验结果表明,PackDiT能够有效地进行多模态联合生成,并具有良好的泛化能力。
🎯 应用场景
PackDiT具有广泛的应用前景,包括虚拟现实、游戏开发、动画制作、人机交互等领域。它可以用于生成逼真的人体运动序列,并根据运动生成相应的文本描述,从而提高用户体验和交互性。此外,PackDiT还可以用于运动预测和补全,例如预测舞蹈动作的后续步骤或修复不完整的运动捕捉数据。该研究为多模态内容生成提供了一种新的思路,有望推动相关领域的发展。
📄 摘要(原文)
Human motion generation has advanced markedly with the advent of diffusion models. Most recent studies have concentrated on generating motion sequences based on text prompts, commonly referred to as text-to-motion generation. However, the bidirectional generation of motion and text, enabling tasks such as motion-to-text alongside text-to-motion, has been largely unexplored. This capability is essential for aligning diverse modalities and supports unconditional generation. In this paper, we introduce PackDiT, the first diffusion-based generative model capable of performing various tasks simultaneously, including motion generation, motion prediction, text generation, text-to-motion, motion-to-text, and joint motion-text generation. Our core innovation leverages mutual blocks to integrate multiple diffusion transformers (DiTs) across different modalities seamlessly. We train PackDiT on the HumanML3D dataset, achieving state-of-the-art text-to-motion performance with an FID score of 0.106, along with superior results in motion prediction and in-between tasks. Our experiments further demonstrate that diffusion models are effective for motion-to-text generation, achieving performance comparable to that of autoregressive models.