HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation

📄 arXiv: 2503.24026v2 📥 PDF

作者: Boyuan Wang, Xiaofeng Wang, Chaojun Ni, Guosheng Zhao, Zhiqin Yang, Zheng Zhu, Muyang Zhang, Yukun Zhou, Xinze Chen, Guan Huang, Lihong Liu, Xingang Wang

分类: cs.CV

发布日期: 2025-03-31 (更新: 2025-04-01)

备注: Project Page: https://humandreamer.github.io


💡 一句话要点

HumanDreamer:提出解耦生成框架,通过文本驱动生成可控人体运动视频。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人体运动视频生成 文本驱动生成 解耦生成框架 姿势生成 MotionDiT

📋 核心要点

  1. 现有方法依赖于从现有视频中提取的姿势,缺乏灵活性,难以生成多样化的人体运动视频。
  2. HumanDreamer框架解耦了姿势生成和视频生成,首先从文本生成姿势,再利用姿势生成视频,提高了控制性和多样性。
  3. 实验表明,该方法在文本到姿势控制的准确性和FID指标上均有显著提升,并可应用于姿势序列预测和2D-3D运动提升等下游任务。

📝 摘要(中文)

人体运动视频生成一直是一个具有挑战性的任务,主要难点在于学习人体运动的复杂性。虽然一些方法尝试通过姿势控制来显式地驱动以人为中心的视频生成,但这些方法通常依赖于现有视频中提取的姿势,缺乏灵活性。为了解决这个问题,我们提出了HumanDreamer,一个解耦的人体视频生成框架,它首先从文本提示生成多样化的姿势,然后利用这些姿势来生成人体运动视频。具体来说,我们提出了MotionVid,这是最大的人体运动姿势生成数据集。基于该数据集,我们提出了MotionDiT,它经过训练可以从文本提示生成结构化的人体运动姿势。此外,还引入了一种新的LAMA损失。这些共同促使FID显著提高了62.4%,并且top1、top2和top3的R-precision分别提高了41.8%、26.3%和18.3%,从而提高了文本到姿势控制的准确性和FID指标。我们在各种姿势到视频的基线上进行的实验表明,我们方法生成的姿势可以产生多样化和高质量的人体运动视频。此外,我们的模型可以促进其他下游任务,例如姿势序列预测和2D-3D运动提升。

🔬 方法详解

问题定义:人体运动视频生成任务面临的挑战在于如何有效地学习和控制人体运动。现有方法通常依赖于从现有视频中提取的姿势,这限制了生成视频的多样性和灵活性。因此,需要一种能够从文本描述直接生成多样化且可控的人体运动视频的方法。

核心思路:HumanDreamer的核心思路是将人体运动视频生成任务解耦为两个阶段:首先,从文本提示生成多样化的姿势序列;然后,利用这些姿势序列生成人体运动视频。这种解耦的方式允许独立控制姿势的生成,从而提高生成视频的多样性和可控性。

技术框架:HumanDreamer框架包含两个主要模块:MotionDiT和姿势到视频生成模块。MotionDiT负责从文本提示生成人体运动姿势序列,它基于Transformer架构,并使用MotionVid数据集进行训练。姿势到视频生成模块则利用生成的姿势序列生成最终的人体运动视频,可以使用现有的姿势到视频生成方法。

关键创新:该论文的关键创新在于提出了一个解耦的生成框架,将人体运动视频生成分解为文本到姿势生成和姿势到视频生成两个独立的过程。此外,还提出了MotionVid数据集,这是一个大规模的人体运动姿势生成数据集,以及LAMA损失函数,用于提高姿势生成的质量。

关键设计:MotionDiT使用Diffusion Transformer (DiT)架构,并采用LAMA损失函数进行训练。LAMA损失函数旨在提高生成姿势的准确性和一致性。MotionVid数据集包含大量的人体运动视频及其对应的文本描述和姿势序列。具体的参数设置和网络结构细节在论文中有详细描述,这里不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HumanDreamer在文本到姿势控制的准确性和FID指标上均取得了显著的提升。具体来说,FID降低了62.4%,top1、top2和top3的R-precision分别提高了41.8%、26.3%和18.3%。这些结果表明,该方法能够生成高质量和多样化的人体运动视频,优于现有的方法。

🎯 应用场景

HumanDreamer具有广泛的应用前景,包括虚拟现实、游戏开发、动画制作、运动分析和人机交互等领域。它可以用于生成逼真的人体运动视频,为用户提供更加沉浸式的体验。此外,该技术还可以用于训练机器人,使其能够更好地理解和模仿人类的运动。

📄 摘要(原文)

Human-motion video generation has been a challenging task, primarily due to the difficulty inherent in learning human body movements. While some approaches have attempted to drive human-centric video generation explicitly through pose control, these methods typically rely on poses derived from existing videos, thereby lacking flexibility. To address this, we propose HumanDreamer, a decoupled human video generation framework that first generates diverse poses from text prompts and then leverages these poses to generate human-motion videos. Specifically, we propose MotionVid, the largest dataset for human-motion pose generation. Based on the dataset, we present MotionDiT, which is trained to generate structured human-motion poses from text prompts. Besides, a novel LAMA loss is introduced, which together contribute to a significant improvement in FID by 62.4%, along with respective enhancements in R-precision for top1, top2, and top3 by 41.8%, 26.3%, and 18.3%, thereby advancing both the Text-to-Pose control accuracy and FID metrics. Our experiments across various Pose-to-Video baselines demonstrate that the poses generated by our method can produce diverse and high-quality human-motion videos. Furthermore, our model can facilitate other downstream tasks, such as pose sequence prediction and 2D-3D motion lifting.