OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation

📄 arXiv: 2412.00115v3 📥 PDF

作者: Hui Li, Mingwang Xu, Yun Zhan, Shan Mu, Jiaye Li, Kaihui Cheng, Yuxuan Chen, Tan Chen, Mao Ye, Jingdong Wang, Siyu Zhu

分类: cs.CV

发布日期: 2024-11-28 (更新: 2025-01-04)

备注: 11 pages, 8 figures, 5 tables

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

OpenHumanVid:大规模高质量人 centric 视频生成数据集,提升生成效果。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频生成 人 centric 视频 数据集 扩散模型 Transformer 多模态信息 预训练

📋 核心要点

  1. 现有视频生成模型缺乏高质量、以人为中心的训练数据,限制了生成效果。
  2. 提出 OpenHumanVid 数据集,包含详细的人类外貌、运动状态描述和辅助运动信息。
  3. 通过扩展扩散 Transformer 架构并在 OpenHumanVid 上预训练,显著提升了人 centric 视频生成质量。

📝 摘要(中文)

视觉生成技术的进步显著增加了视频数据集的规模和可用性,这对于训练有效的视频生成模型至关重要。然而,高质量、以人为中心的视频数据集的严重缺乏对该领域的进展构成了挑战。为了弥补这一差距,我们推出了 OpenHumanVid,这是一个大规模、高质量的以人为中心的视频数据集,其特点是精确而详细的字幕,涵盖了人类的外貌和运动状态,以及包括骨骼序列和语音音频在内的补充人类运动条件。为了验证该数据集和相关训练策略的有效性,我们提出了对现有经典扩散 Transformer 架构的扩展,并在我们提出的数据集上进一步预训练我们的模型。我们的发现产生了两个关键见解:首先,结合大规模、高质量的数据集可以显著提高生成的人类视频的评估指标,同时保持通用视频生成任务的性能。其次,文本与人类外貌、人类运动和面部运动的有效对齐对于产生高质量的视频输出至关重要。基于这些见解和相应的方法,在所提出的数据集上训练的简单扩展网络在以人为中心的视频生成方面表现出明显的改进。

🔬 方法详解

问题定义:当前视频生成领域缺乏大规模、高质量的以人为中心的视频数据集。现有方法难以生成逼真、细节丰富的人类视频,尤其是在人类外貌、运动和面部表情的精确控制方面存在挑战。

核心思路:论文的核心思路是构建一个包含详细标注信息(包括人类外貌、运动状态、骨骼序列和语音音频)的大规模数据集 OpenHumanVid,并在此基础上对现有的视频生成模型进行预训练,从而提升模型对人类相关信息的理解和生成能力。通过对齐文本描述与人类外貌、运动和面部运动,实现高质量的视频输出。

技术框架:该研究主要包含两个部分:一是 OpenHumanVid 数据集的构建,二是基于该数据集的视频生成模型训练。数据集构建涉及视频收集、清洗、标注等环节,标注信息包括人类外貌、运动状态的文本描述,以及骨骼序列和语音音频等多模态信息。视频生成模型采用扩展的扩散 Transformer 架构,并在 OpenHumanVid 数据集上进行预训练。

关键创新:该论文的关键创新在于构建了大规模、高质量的以人为中心的视频数据集 OpenHumanVid,该数据集包含丰富的标注信息,为训练高质量的人 centric 视频生成模型提供了数据基础。此外,论文还探索了文本与人类外貌、运动和面部运动的有效对齐方法,为提升视频生成质量提供了新的思路。

关键设计:论文中提到的关键设计包括:数据集标注的详细程度,包括人类外貌、运动状态的文本描述,以及骨骼序列和语音音频等多模态信息;扩散 Transformer 架构的扩展方式,具体扩展细节未知;以及预训练策略,如何利用 OpenHumanVid 数据集提升模型性能,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在 OpenHumanVid 数据集上预训练的模型在生成人类视频的评估指标上取得了显著提升,同时保持了在通用视频生成任务上的性能。这验证了大规模、高质量数据集对于提升人 centric 视频生成效果的重要性,以及文本与人类外貌、运动和面部运动有效对齐的必要性。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作、数字人等领域。高质量的人 centric 视频生成技术能够创造更逼真、更具表现力的虚拟角色和场景,提升用户体验。未来,该技术有望应用于个性化内容生成、智能助手等领域,为人们的生活带来更多便利。

📄 摘要(原文)

Recent advancements in visual generation technologies have markedly increased the scale and availability of video datasets, which are crucial for training effective video generation models. However, a significant lack of high-quality, human-centric video datasets presents a challenge to progress in this field. To bridge this gap, we introduce OpenHumanVid, a large-scale and high-quality human-centric video dataset characterized by precise and detailed captions that encompass both human appearance and motion states, along with supplementary human motion conditions, including skeleton sequences and speech audio. To validate the efficacy of this dataset and the associated training strategies, we propose an extension of existing classical diffusion transformer architectures and conduct further pretraining of our models on the proposed dataset. Our findings yield two critical insights: First, the incorporation of a large-scale, high-quality dataset substantially enhances evaluation metrics for generated human videos while preserving performance in general video generation tasks. Second, the effective alignment of text with human appearance, human motion, and facial motion is essential for producing high-quality video outputs. Based on these insights and corresponding methodologies, the straightforward extended network trained on the proposed dataset demonstrates an obvious improvement in the generation of human-centric videos. Project page https://fudan-generative-vision.github.io/OpenHumanVid