Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding

作者: Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan

分类: cs.CV

发布日期: 2023-12-31 (更新: 2024-03-30)

💡 一句话要点

提出Video-GroundingDINO，解决开放词汇时空视频定位问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频定位 开放词汇 时空定位 预训练模型 多模态学习

📋 核心要点

现有视频定位方法在开放词汇场景下表现不佳，主要原因是训练数据有限和词汇表预定义。
论文利用预训练的空间定位模型，学习通用的视觉和语言表征，从而实现开放词汇的视频定位。
实验结果表明，该模型在封闭集和开放词汇数据集上均取得了显著的性能提升，超越了现有方法。

📝 摘要（中文）

本文提出了一种开放词汇时空视频定位任务，旨在解决现有视频定位方法在开放词汇场景下的局限性。现有方法受限于训练数据和预定义词汇，难以处理开放词汇场景。本文模型利用预训练的空间定位模型中的表征，有效弥合了自然语言和多样化视觉内容之间的语义鸿沟，在封闭集和开放词汇设置中均取得了优异的性能。该模型在VidSTG和HC-STVG数据集的封闭集评估中超越了现有技术水平，并在HC-STVG V1和YouCook-Interactions数据集的开放词汇评估中，分别以4.88 m_vIoU和1.83%的准确率超越了现有最佳模型，证明了其在处理多样化语言和视觉概念以改进视频理解方面的有效性。代码将公开。

🔬 方法详解

问题定义：现有视频定位方法主要集中在封闭集场景，即测试时使用的词汇在训练集中已经出现。然而，现实世界的应用需要模型能够处理开放词汇，即测试时出现训练集中未见过的词汇。现有方法由于训练数据的限制和预定义的词汇表，难以泛化到开放词汇场景。因此，论文旨在解决开放词汇时空视频定位问题，使模型能够根据任意文本查询在视频中定位对应的时空片段。

核心思路：论文的核心思路是利用预训练的空间定位模型，学习通用的视觉和语言表征。预训练模型已经在大量图像数据上进行了训练，能够提取丰富的视觉特征。通过将视频帧输入到预训练模型中，可以获得视频的视觉表征。同时，利用文本编码器将文本查询编码为语言表征。然后，将视觉表征和语言表征进行融合，预测视频中与文本查询相关的时空片段。

技术框架：整体框架包含三个主要模块：1) 视频特征提取模块：使用预训练的GroundingDINO模型提取视频帧的视觉特征。2) 文本特征提取模块：使用文本编码器（例如BERT）提取文本查询的语言特征。3) 时空定位模块：将视觉特征和语言特征进行融合，预测视频中与文本查询相关的时空片段。该模块通常包含一个多层感知机（MLP）或Transformer结构，用于学习视觉和语言特征之间的对应关系。

关键创新：论文的关键创新在于利用预训练的空间定位模型来解决开放词汇视频定位问题。与以往的方法不同，该方法不需要针对特定数据集进行训练，而是可以直接利用预训练模型的通用表征能力。这种方法可以有效减少对训练数据的依赖，提高模型的泛化能力。

关键设计：论文的关键设计包括：1) 使用预训练的GroundingDINO模型作为视觉特征提取器。GroundingDINO是一个强大的空间定位模型，已经在大量图像数据上进行了训练。2) 使用Transformer结构作为时空定位模块，学习视觉和语言特征之间的对应关系。Transformer结构具有强大的序列建模能力，可以有效处理视频中的时序信息。3) 使用对比学习损失函数，鼓励模型学习视觉和语言特征之间的相似性。

📊 实验亮点

该模型在VidSTG（Declarative and Interrogative）和HC-STVG（V1 and V2）数据集的封闭集评估中超越了现有技术水平。在HC-STVG V1和YouCook-Interactions数据集的开放词汇评估中，该模型分别以4.88 m_vIoU和1.83%的准确率超越了现有最佳模型，证明了其在开放词汇场景下的有效性。

🎯 应用场景

该研究成果可应用于视频检索、智能监控、人机交互等领域。例如，用户可以通过自然语言查询快速定位视频中的特定事件或对象。在智能监控中，可以根据预设的文本描述自动检测异常行为。在人机交互中，可以实现基于语音或文本指令的视频编辑和控制。

📄 摘要（原文）

Video grounding aims to localize a spatio-temporal section in a video corresponding to an input text query. This paper addresses a critical limitation in current video grounding methodologies by introducing an Open-Vocabulary Spatio-Temporal Video Grounding task. Unlike prevalent closed-set approaches that struggle with open-vocabulary scenarios due to limited training data and predefined vocabularies, our model leverages pre-trained representations from foundational spatial grounding models. This empowers it to effectively bridge the semantic gap between natural language and diverse visual content, achieving strong performance in closed-set and open-vocabulary settings. Our contributions include a novel spatio-temporal video grounding model, surpassing state-of-the-art results in closed-set evaluations on multiple datasets and demonstrating superior performance in open-vocabulary scenarios. Notably, the proposed model outperforms state-of-the-art methods in closed-set settings on VidSTG (Declarative and Interrogative) and HC-STVG (V1 and V2) datasets. Furthermore, in open-vocabulary evaluations on HC-STVG V1 and YouCook-Interactions, our model surpasses the recent best-performing models by $4.88$ m_vIoU and $1.83\%$ accuracy, demonstrating its efficacy in handling diverse linguistic and visual concepts for improved video understanding. Our codes will be publicly released.

Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册