PackDiT: Joint Human Motion and Text Generation via Mutual Prompting

作者: Zhongyu Jiang, Wenhao Chai, Zhuoran Zhou, Cheng-Yen Yang, Hsiang-Wei Huang, Jenq-Neng Hwang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-01-27

💡 一句话要点

PackDiT：通过互提示实现联合人体运动和文本生成

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 人体运动生成 文本生成 扩散模型 多模态融合 互提示学习 运动预测 HumanML3D

📋 核心要点

现有方法主要关注文本到运动的单向生成，忽略了运动到文本及联合生成能力，限制了多模态对齐和无条件生成。
PackDiT通过互提示模块集成多个扩散Transformer，实现运动生成、运动预测、文本生成等多种任务的联合处理。
实验表明，PackDiT在文本到运动生成上达到SOTA，FID为0.106，并在运动预测和运动到文本生成上表现出色。

📝 摘要（中文）

扩散模型的发展显著推动了人体运动生成。目前的研究主要集中于基于文本提示生成运动序列，即文本到运动的生成。然而，运动和文本的双向生成，例如运动到文本以及文本到运动，在很大程度上尚未被探索。这种能力对于对齐不同的模态至关重要，并支持无条件生成。本文提出了PackDiT，这是第一个能够同时执行多种任务的基于扩散的生成模型，包括运动生成、运动预测、文本生成、文本到运动、运动到文本以及联合运动-文本生成。我们的核心创新是利用互提示模块来无缝集成不同模态的多个扩散Transformer（DiT）。我们在HumanML3D数据集上训练PackDiT，在文本到运动生成方面取得了最先进的性能，FID分数为0.106，并在运动预测和中间任务中取得了优异的结果。我们的实验进一步证明，扩散模型对于运动到文本生成是有效的，其性能与自回归模型相当。

🔬 方法详解

问题定义：现有的人体运动生成方法主要集中在文本到运动的单向生成任务上，缺乏对运动到文本生成以及联合运动-文本生成能力的研究。这限制了模型在多模态信息对齐和无条件生成方面的应用。现有方法难以同时处理多种模态和任务，导致模型泛化能力受限。

核心思路：PackDiT的核心思路是利用多个扩散Transformer（DiT）分别处理不同的模态（运动和文本），并通过互提示模块实现模态间的信息交互和融合。这种设计使得模型能够同时进行运动生成、运动预测、文本生成、文本到运动、运动到文本以及联合运动-文本生成等多种任务。互提示机制允许模型在不同模态之间传递信息，从而提高生成质量和一致性。

技术框架：PackDiT的整体架构包含多个DiT模块，每个模块负责处理一种模态（例如，运动或文本）。这些DiT模块通过互提示模块连接，实现信息交换。训练过程中，模型同时学习不同任务，例如文本到运动和运动到文本。推理时，可以根据输入选择相应的任务进行生成。整个框架基于扩散模型，通过逐步去噪的方式生成高质量的运动和文本序列。

关键创新：PackDiT最重要的技术创新点在于互提示模块的设计。该模块允许不同模态的DiT模块之间进行信息交互，从而实现多任务联合学习和生成。与传统的单向生成模型相比，PackDiT能够更好地利用多模态信息，提高生成质量和一致性。此外，PackDiT是第一个能够同时执行多种运动和文本生成任务的扩散模型。

关键设计：PackDiT的关键设计包括：1) 使用多个DiT模块分别处理不同模态；2) 设计互提示模块实现模态间信息交互；3) 采用扩散模型进行生成，通过逐步去噪提高生成质量；4) 在HumanML3D数据集上进行训练，并使用FID等指标评估性能。具体的网络结构和参数设置在论文中有详细描述，损失函数的设计旨在平衡不同任务之间的性能。

🖼️ 关键图片

📊 实验亮点

PackDiT在HumanML3D数据集上取得了显著的性能提升。在文本到运动生成任务中，PackDiT的FID分数为0.106，达到了最先进的水平。此外，PackDiT在运动预测和运动到文本生成任务中也表现出色，与现有的自回归模型相比具有竞争力。这些实验结果表明，PackDiT能够有效地进行多模态联合生成，并具有良好的泛化能力。

🎯 应用场景

PackDiT具有广泛的应用前景，包括虚拟现实、游戏开发、动画制作、人机交互等领域。它可以用于生成逼真的人体运动序列，并根据运动生成相应的文本描述，从而提高用户体验和交互性。此外，PackDiT还可以用于运动预测和补全，例如预测舞蹈动作的后续步骤或修复不完整的运动捕捉数据。该研究为多模态内容生成提供了一种新的思路，有望推动相关领域的发展。

📄 摘要（原文）

Human motion generation has advanced markedly with the advent of diffusion models. Most recent studies have concentrated on generating motion sequences based on text prompts, commonly referred to as text-to-motion generation. However, the bidirectional generation of motion and text, enabling tasks such as motion-to-text alongside text-to-motion, has been largely unexplored. This capability is essential for aligning diverse modalities and supports unconditional generation. In this paper, we introduce PackDiT, the first diffusion-based generative model capable of performing various tasks simultaneously, including motion generation, motion prediction, text generation, text-to-motion, motion-to-text, and joint motion-text generation. Our core innovation leverages mutual blocks to integrate multiple diffusion transformers (DiTs) across different modalities seamlessly. We train PackDiT on the HumanML3D dataset, achieving state-of-the-art text-to-motion performance with an FID score of 0.106, along with superior results in motion prediction and in-between tasks. Our experiments further demonstrate that diffusion models are effective for motion-to-text generation, achieving performance comparable to that of autoregressive models.

PackDiT: Joint Human Motion and Text Generation via Mutual Prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理