HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation

📄 arXiv: 2503.23715v1 📥 PDF

作者: Kun Liu, Qi Liu, Xinchen Liu, Jie Li, Yongdong Zhang, Jiebo Luo, Xiaodong He, Wu Liu

分类: cs.CV

发布日期: 2025-03-31

备注: CVPR 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出HOIGen-1M大规模数据集,提升文本到视频生成中人与物交互的精确性

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人与物交互 视频生成 文本到视频 大规模数据集 多模态学习

📋 核心要点

  1. 现有文本到视频生成模型难以精确生成人与物交互,主要原因是缺乏带有准确HOI描述的大规模视频数据集。
  2. 论文提出HOIGen-1M数据集,并设计了基于多模态大语言模型和人工标注的自动策展框架,保证视频质量。
  3. 论文设计了基于多模态专家混合的视频描述方法,生成准确的HOI文本描述,并提出了新的评估指标。

📝 摘要(中文)

本文提出了HOIGen-1M,这是首个用于人与物交互(HOI)生成的大规模数据集,包含超过一百万个来自不同来源的高质量视频。为了保证视频质量,我们设计了一个高效的框架,利用强大的多模态大型语言模型(MLLM)自动管理HOI视频,并通过人工标注进一步清理视频。此外,为了获得HOI视频的准确文本描述,我们设计了一种基于多模态专家混合(MoME)策略的新型视频描述方法,该方法不仅生成富有表现力的字幕,而且消除了单个MLLM的幻觉。此外,由于缺乏针对生成HOI视频的评估框架,我们提出了两个新的指标,以粗到精的方式评估生成视频的质量。大量实验表明,当前的T2V模型难以生成高质量的HOI视频,并证实了我们的HOIGen-1M数据集有助于改善HOI视频生成。

🔬 方法详解

问题定义:当前文本到视频(T2V)生成模型在生成复杂场景方面取得了显著进展,但由于缺乏大规模且带有准确人与物交互(HOI)描述的视频数据,模型难以精确地生成HOI。现有方法依赖于较小规模的数据集或合成数据,泛化能力有限,且难以捕捉真实世界HOI的复杂性。

核心思路:论文的核心思路是构建一个大规模、高质量的HOI视频数据集,并提供相应的文本描述,从而为T2V模型提供充足的训练数据,提升其生成HOI视频的能力。此外,论文还关注数据质量和描述的准确性,通过自动策展和人工标注相结合的方式,以及多模态专家混合策略,确保数据集的可用性和有效性。

技术框架:HOIGen-1M的构建流程主要包含以下几个阶段:1) 视频收集:从多个来源收集大量的候选视频。2) 自动策展:利用多模态大型语言模型(MLLM)对候选视频进行初步筛选,保留包含HOI的视频。3) 人工标注:人工审核和清理自动策展的结果,去除不相关或质量较差的视频。4) 视频描述:使用基于多模态专家混合(MoME)策略的视频描述方法,为每个视频生成准确的文本描述。5) 评估指标:提出新的评估指标,用于评估生成的HOI视频的质量。

关键创新:论文的关键创新在于:1) 大规模HOI视频数据集:HOIGen-1M是首个大规模的HOI视频数据集,为T2V模型提供了充足的训练数据。2) 基于MLLM的自动策展框架:该框架能够高效地筛选出包含HOI的视频,降低了人工标注的成本。3) 基于MoME的视频描述方法:该方法能够生成准确且富有表现力的HOI文本描述,并有效减少了MLLM的幻觉问题。4) HOI视频评估指标:提出了新的评估指标,能够更全面地评估生成的HOI视频的质量。

关键设计:在视频描述方面,MoME策略的关键在于融合多个MLLM的优势,每个MLLM作为一个专家,针对视频的不同方面进行描述,然后通过一个门控机制学习每个专家的权重,最终生成综合的描述。具体来说,使用了多个预训练的MLLM,例如BLIP、CLIP等,并设计了一个注意力机制来学习每个MLLM的权重。在评估指标方面,设计了两个指标,一个用于评估生成视频的整体质量,另一个用于评估生成视频中HOI的准确性。具体参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的T2V模型在HOIGen-1M数据集上表现不佳,难以生成高质量的HOI视频。使用HOIGen-1M数据集进行训练后,T2V模型的HOI生成能力得到了显著提升。具体性能数据未知,但论文强调了HOIGen-1M数据集对于改善HOI视频生成的重要性。

🎯 应用场景

该研究成果可广泛应用于视频生成、虚拟现实、游戏开发等领域。高质量的HOI视频生成技术能够提升虚拟场景的真实感和交互性,为用户带来更沉浸式的体验。此外,该数据集和评估指标也为相关研究提供了重要的资源和工具,促进了文本到视频生成领域的发展。

📄 摘要(原文)

Text-to-video (T2V) generation has made tremendous progress in generating complicated scenes based on texts. However, human-object interaction (HOI) often cannot be precisely generated by current T2V models due to the lack of large-scale videos with accurate captions for HOI. To address this issue, we introduce HOIGen-1M, the first largescale dataset for HOI Generation, consisting of over one million high-quality videos collected from diverse sources. In particular, to guarantee the high quality of videos, we first design an efficient framework to automatically curate HOI videos using the powerful multimodal large language models (MLLMs), and then the videos are further cleaned by human annotators. Moreover, to obtain accurate textual captions for HOI videos, we design a novel video description method based on a Mixture-of-Multimodal-Experts (MoME) strategy that not only generates expressive captions but also eliminates the hallucination by individual MLLM. Furthermore, due to the lack of an evaluation framework for generated HOI videos, we propose two new metrics to assess the quality of generated videos in a coarse-to-fine manner. Extensive experiments reveal that current T2V models struggle to generate high-quality HOI videos and confirm that our HOIGen-1M dataset is instrumental for improving HOI video generation. Project webpage is available at https://liuqi-creat.github.io/HOIGen.github.io.