VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding
作者: Houlun Chen, Xin Wang, Hong Chen, Zeyang Zhang, Wei Feng, Bin Huang, Jia Jia, Wenwu Zhu
分类: cs.CV, cs.AI
发布日期: 2024-10-11
备注: Accepted by 38th NeurIPS Datasets & Benchmarks Track (NeurIPS 2024)
🔗 代码/项目: GITHUB
💡 一句话要点
提出VERIFIED,一个用于细粒度视频理解的视频片段检索基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频片段检索 细粒度视频理解 视频文本标注 大型语言模型 多模态学习
📋 核心要点
- 现有VCMR方法在细粒度理解方面存在不足,难以应对复杂查询。
- 提出VERIFIED流程,利用LLM/LMM自动生成高质量、细粒度的视频描述。
- 构建了Charades-FIG等数据集,并验证了现有方法在细粒度理解上的局限性。
📝 摘要(中文)
现有的视频语料库片段检索(VCMR)局限于粗粒度的理解,这阻碍了在给定细粒度查询时精确定位视频片段。本文提出了一个更具挑战性的细粒度VCMR基准,要求方法从语料库中定位最佳匹配的片段,同时存在其他部分匹配的候选片段。为了提高数据集构建效率并保证高质量的数据标注,我们提出了VERIFIED,一个自动化的视频-文本标注流程,用于生成具有可靠的细粒度静态和动态信息的字幕。具体来说,我们利用大型语言模型(LLM)和大型多模态模型(LMM),并结合我们提出的静态和动态增强字幕模块,为每个视频生成多样化的细粒度字幕。为了过滤掉LLM幻觉导致的不准确标注,我们提出了一个细粒度感知噪声评估器,其中我们使用扰动的难负样本增强的对比和匹配损失来微调视频基础模型。通过VERIFIED,我们构建了一个更具挑战性的细粒度VCMR基准,包含Charades-FIG、DiDeMo-FIG和ActivityNet-FIG,这些数据集展示了高水平的标注质量。我们在提出的数据集上评估了几种最先进的VCMR模型,表明VCMR中细粒度视频理解仍有很大的提升空间。
🔬 方法详解
问题定义:现有的视频语料库片段检索(VCMR)方法主要集中在粗粒度的视频理解上,当面对需要精确定位视频片段的细粒度查询时,性能会显著下降。现有方法难以区分与查询部分匹配和完全匹配的视频片段,导致定位精度不高。因此,如何提升VCMR模型在细粒度视频理解方面的能力是一个关键问题。
核心思路:论文的核心思路是构建一个高质量的细粒度VCMR基准数据集,并利用该数据集来评估和提升现有VCMR模型在细粒度理解方面的能力。通过自动化的标注流程,生成包含丰富静态和动态信息的细粒度视频描述,从而为模型提供更精确的训练信号。同时,设计噪声评估器来过滤掉LLM生成的不准确标注,保证数据集的质量。
技术框架:VERIFIED流程主要包含以下几个阶段:1) 利用大型语言模型(LLM)和大型多模态模型(LMM)生成候选的细粒度视频描述。2) 使用静态和动态增强字幕模块,进一步丰富描述的多样性和细节。3) 设计细粒度感知噪声评估器,利用视频基础模型和对比学习,过滤掉不准确的标注。4) 基于过滤后的高质量标注,构建Charades-FIG、DiDeMo-FIG和ActivityNet-FIG等细粒度VCMR基准数据集。
关键创新:论文的关键创新在于提出了一个自动化的视频-文本标注流程VERIFIED,该流程能够高效地生成高质量的细粒度视频描述。与传统的人工标注相比,VERIFIED能够显著降低标注成本,并保证标注的一致性和准确性。此外,细粒度感知噪声评估器的设计,能够有效过滤掉LLM幻觉带来的噪声,进一步提升数据集的质量。
关键设计:在静态和动态增强字幕模块中,论文设计了专门的prompt来引导LLM/LMM生成包含静态场景信息(如物体、人物)和动态行为信息(如动作、交互)的描述。在细粒度感知噪声评估器中,论文使用了扰动的难负样本增强的对比和匹配损失来微调视频基础模型,使其能够更好地区分相似但语义不同的视频片段。具体的损失函数设计和网络结构细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在构建的Charades-FIG、DiDeMo-FIG和ActivityNet-FIG数据集上,现有的VCMR模型性能显著下降,表明细粒度视频理解仍然是一个具有挑战性的问题。该数据集的发布为后续研究提供了新的基准,并促进了相关技术的发展。具体性能数据和提升幅度未知,需要在论文中查找。
🎯 应用场景
该研究成果可应用于智能视频分析、视频搜索、视频推荐等领域。例如,在视频搜索中,用户可以通过输入细粒度的查询语句,快速定位到视频中感兴趣的片段。在视频推荐中,可以根据用户的观看历史和兴趣,推荐包含特定动作或场景的视频片段。该研究有助于提升视频理解的精度和效率,为相关应用带来更好的用户体验。
📄 摘要(原文)
Existing Video Corpus Moment Retrieval (VCMR) is limited to coarse-grained understanding, which hinders precise video moment localization when given fine-grained queries. In this paper, we propose a more challenging fine-grained VCMR benchmark requiring methods to localize the best-matched moment from the corpus with other partially matched candidates. To improve the dataset construction efficiency and guarantee high-quality data annotations, we propose VERIFIED, an automatic \underline{V}id\underline{E}o-text annotation pipeline to generate captions with \underline{R}el\underline{I}able \underline{FI}n\underline{E}-grained statics and \underline{D}ynamics. Specifically, we resort to large language models (LLM) and large multimodal models (LMM) with our proposed Statics and Dynamics Enhanced Captioning modules to generate diverse fine-grained captions for each video. To filter out the inaccurate annotations caused by the LLM hallucination, we propose a Fine-Granularity Aware Noise Evaluator where we fine-tune a video foundation model with disturbed hard-negatives augmented contrastive and matching losses. With VERIFIED, we construct a more challenging fine-grained VCMR benchmark containing Charades-FIG, DiDeMo-FIG, and ActivityNet-FIG which demonstrate a high level of annotation quality. We evaluate several state-of-the-art VCMR models on the proposed dataset, revealing that there is still significant scope for fine-grained video understanding in VCMR. Code and Datasets are in \href{https://github.com/hlchen23/VERIFIED}{https://github.com/hlchen23/VERIFIED}.