End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting
作者: Yongqi Wang, Xinxiao Wu, Shuo Yang, Jiebo Luo
分类: cs.CV
发布日期: 2024-09-19 (更新: 2025-04-12)
备注: Accepted by TPAMI
💡 一句话要点
提出基于多模态Prompting的端到端开放词汇视频视觉关系检测框架。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇视频关系检测 端到端学习 多模态Prompting Transformer解码器 CLIP 关系感知 轨迹检测
📋 核心要点
- 现有开放词汇视频关系检测方法依赖预训练轨迹检测器,泛化能力受限,难以检测新类别对象关系。
- 提出端到端框架,统一对象轨迹检测和关系分类,利用关系感知轨迹检测器和开放词汇关系分类器。
- 实验表明,该框架在VidVRD和VidOR数据集上表现出色,并在跨数据集场景中展现了良好的泛化能力。
📝 摘要(中文)
本文旨在扩展视频视觉关系检测的范围,使其能够检测视频中已见和未见对象之间未标注的关系,从而实现开放词汇视频视觉关系检测。现有方法通常依赖于在封闭数据集上训练的轨迹检测器来检测对象轨迹,然后将这些轨迹输入到大规模预训练的视觉-语言模型中,以实现开放词汇分类。这种对预训练轨迹检测器的严重依赖限制了它们泛化到新对象类别的能力,导致性能下降。为了解决这个问题,我们提出将对象轨迹检测和关系分类统一到一个端到端的开放词汇框架中。在该框架下,我们提出了一个关系感知的开放词汇轨迹检测器,它主要由一个基于查询的Transformer解码器和一个轨迹关联器组成。为了在轨迹检测期间利用关系上下文,我们将关系查询嵌入到Transformer解码器中,并相应地设计了一个辅助关系损失,使解码器能够显式地感知对象之间的关系。此外,我们提出了一个开放词汇关系分类器,它利用CLIP丰富的语义知识来发现新的关系。为了使CLIP更好地适应关系分类,我们设计了一种多模态Prompting方法,该方法采用时空视觉Prompting进行视觉表示,并采用视觉引导的语言Prompting进行语言输入。在两个公共数据集VidVRD和VidOR上的大量实验证明了我们框架的有效性。我们的框架也被应用于更困难的跨数据集场景,以进一步证明其泛化能力。
🔬 方法详解
问题定义:开放词汇视频视觉关系检测旨在检测视频中已见和未见对象之间未标注的关系。现有方法依赖于预训练的轨迹检测器,这些检测器在封闭数据集上训练,无法很好地泛化到新的对象类别,导致性能下降。因此,如何设计一个能够检测新类别对象之间关系的视频关系检测框架是一个关键问题。
核心思路:本文的核心思路是将对象轨迹检测和关系分类统一到一个端到端的框架中。通过联合优化轨迹检测和关系分类,可以避免对预训练轨迹检测器的依赖,并利用关系上下文来提高轨迹检测的准确性。此外,利用CLIP等大规模预训练视觉-语言模型的语义知识,可以实现对新关系的检测。
技术框架:该框架主要包含两个模块:关系感知的开放词汇轨迹检测器和开放词汇关系分类器。关系感知的开放词汇轨迹检测器基于Transformer解码器,利用关系查询和辅助关系损失来显式地感知对象之间的关系。开放词汇关系分类器利用CLIP的语义知识,并通过多模态Prompting方法来适应关系分类任务。整个框架以端到端的方式进行训练。
关键创新:该论文的关键创新在于提出了一个端到端的开放词汇视频视觉关系检测框架,该框架能够同时进行对象轨迹检测和关系分类,并利用关系上下文来提高轨迹检测的准确性。此外,该论文还提出了一种多模态Prompting方法,该方法能够有效地利用CLIP的语义知识来进行关系分类。
关键设计:关系感知的开放词汇轨迹检测器使用基于查询的Transformer解码器,其中每个查询对应一个潜在的对象轨迹。关系查询被嵌入到Transformer解码器中,并与对象查询一起用于预测对象轨迹和关系。辅助关系损失被设计用于鼓励解码器显式地感知对象之间的关系。开放词汇关系分类器使用CLIP的视觉和语言编码器,并通过时空视觉Prompting和视觉引导的语言Prompting来适应关系分类任务。损失函数包括轨迹检测损失、关系分类损失和辅助关系损失。
🖼️ 关键图片
📊 实验亮点
在VidVRD和VidOR数据集上的实验结果表明,该框架优于现有的开放词汇视频视觉关系检测方法。例如,在VidVRD数据集上,该框架的Recall@50提高了约5%。此外,该框架在跨数据集场景中也表现出了良好的泛化能力,表明其具有实际应用潜力。
🎯 应用场景
该研究成果可应用于智能视频监控、视频内容分析、人机交互等领域。例如,在智能视频监控中,可以利用该技术自动检测视频中的异常行为和事件。在视频内容分析中,可以利用该技术自动提取视频中的关键信息和关系。在人机交互中,可以利用该技术实现更自然和智能的视频理解和交互。
📄 摘要(原文)
Open-vocabulary video visual relationship detection aims to expand video visual relationship detection beyond annotated categories by detecting unseen relationships between both seen and unseen objects in videos. Existing methods usually use trajectory detectors trained on closed datasets to detect object trajectories, and then feed these trajectories into large-scale pre-trained vision-language models to achieve open-vocabulary classification. Such heavy dependence on the pre-trained trajectory detectors limits their ability to generalize to novel object categories, leading to performance degradation. To address this challenge, we propose to unify object trajectory detection and relationship classification into an end-to-end open-vocabulary framework. Under this framework, we propose a relationship-aware open-vocabulary trajectory detector. It primarily consists of a query-based Transformer decoder, where the visual encoder of CLIP is distilled for frame-wise open-vocabulary object detection, and a trajectory associator. To exploit relationship context during trajectory detection, a relationship query is embedded into the Transformer decoder, and accordingly, an auxiliary relationship loss is designed to enable the decoder to perceive the relationships between objects explicitly. Moreover, we propose an open-vocabulary relationship classifier that leverages the rich semantic knowledge of CLIP to discover novel relationships. To adapt CLIP well to relationship classification, we design a multi-modal prompting method that employs spatio-temporal visual prompting for visual representation and vision-guided language prompting for language input. Extensive experiments on two public datasets, VidVRD and VidOR, demonstrate the effectiveness of our framework. Our framework is also applied to a more difficult cross-dataset scenario to further demonstrate its generalization ability.