METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection

📄 arXiv: 2505.06663v1 📥 PDF

作者: Yongqi Wang, Xinxiao Wu, Shuo Yang

分类: cs.CV

发布日期: 2025-05-10

备注: IJCAI2025


💡 一句话要点

提出METOR框架,用于开放词汇视频视觉关系检测中的对象与关系互增强

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇 视频视觉关系检测 对象关系互增强 CLIP 查询式检测

📋 核心要点

  1. 现有开放词汇视频视觉关系检测方法采用级联pipeline,易导致误差传播,影响性能。
  2. METOR框架通过联合建模对象和关系,并利用迭代增强模块实现二者表示的互增强。
  3. 在VidVRD和VidOR数据集上的实验表明,METOR框架达到了state-of-the-art的性能。

📝 摘要(中文)

本文提出了一种用于开放词汇视频视觉关系检测的统一框架——对象与关系互增强(METOR)。该框架旨在解决现有方法中对象检测和关系分类的级联pipeline导致的误差传播问题。METOR采用基于查询的方法,联合建模对象检测和关系分类,并在开放词汇场景下实现对象与关系的互增强。首先,设计了一个基于CLIP的上下文精炼编码模块,提取对象和关系的视觉上下文,以细化文本特征和对象查询的编码,从而提高对新类别的泛化能力。然后,提出了一个迭代增强模块,通过充分利用对象和关系之间的相互依赖性,交替增强对象和关系的表示,从而提高识别性能。在VidVRD和VidOR两个公共数据集上的大量实验表明,该框架取得了最先进的性能。

🔬 方法详解

问题定义:开放词汇视频视觉关系检测旨在检测视频中的对象及其关系,而不受预定义的对象或关系类别的限制。现有方法通常采用级联pipeline,先检测对象,然后基于检测到的对象对关系进行分类,这种方式容易导致误差传播,从而影响最终的检测性能。此外,如何有效利用视觉上下文信息,提升模型对新类别的泛化能力也是一个挑战。

核心思路:METOR的核心思路是联合建模对象检测和关系分类,通过对象和关系之间的相互依赖性,实现二者的互增强。具体来说,通过迭代的方式,利用对象的信息来增强关系的表示,反过来,利用关系的信息来增强对象的表示,从而提高整体的检测性能。这种联合建模的方式可以避免级联pipeline中的误差传播问题,并充分利用对象和关系之间的上下文信息。

技术框架:METOR框架主要包含两个核心模块:CLIP-based上下文精炼编码模块和迭代增强模块。首先,CLIP-based上下文精炼编码模块用于提取对象和关系的视觉上下文,并利用这些上下文信息来细化文本特征和对象查询的编码。然后,迭代增强模块通过交替增强对象和关系的表示,实现二者的互增强。整个框架采用基于查询的方法,可以并行地检测对象和关系,从而提高效率。

关键创新:METOR的关键创新在于提出了一个统一的框架,可以联合建模对象检测和关系分类,并通过迭代增强模块实现二者的互增强。与现有方法相比,METOR避免了级联pipeline中的误差传播问题,并充分利用了对象和关系之间的上下文信息。此外,CLIP-based上下文精炼编码模块可以有效地提高模型对新类别的泛化能力。

关键设计:CLIP-based上下文精炼编码模块利用CLIP模型提取视觉和文本特征,并通过注意力机制将视觉上下文信息融入到文本特征和对象查询的编码中。迭代增强模块采用多层Transformer结构,通过交叉注意力机制实现对象和关系之间的信息交互。损失函数包括对象检测损失、关系分类损失和对比学习损失,用于优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

METOR框架在VidVRD和VidOR两个公共数据集上取得了state-of-the-art的性能。在VidVRD数据集上,METOR在多个指标上都超过了现有方法,例如,在Recall@50指标上,METOR相比于之前的最佳方法提升了显著的幅度。在VidOR数据集上,METOR也取得了具有竞争力的结果,验证了该框架的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于视频内容理解、智能监控、视频检索等领域。例如,在智能监控中,可以利用该技术自动检测视频中的异常行为和事件。在视频检索中,可以根据用户提供的对象和关系信息,快速检索到相关的视频片段。未来,该技术还可以扩展到其他多模态场景,如图像和文本的联合理解。

📄 摘要(原文)

Open-vocabulary video visual relationship detection aims to detect objects and their relationships in videos without being restricted by predefined object or relationship categories. Existing methods leverage the rich semantic knowledge of pre-trained vision-language models such as CLIP to identify novel categories. They typically adopt a cascaded pipeline to first detect objects and then classify relationships based on the detected objects, which may lead to error propagation and thus suboptimal performance. In this paper, we propose Mutual EnhancemenT of Objects and Relationships (METOR), a query-based unified framework to jointly model and mutually enhance object detection and relationship classification in open-vocabulary scenarios. Under this framework, we first design a CLIP-based contextual refinement encoding module that extracts visual contexts of objects and relationships to refine the encoding of text features and object queries, thus improving the generalization of encoding to novel categories. Then we propose an iterative enhancement module to alternatively enhance the representations of objects and relationships by fully exploiting their interdependence to improve recognition performance. Extensive experiments on two public datasets, VidVRD and VidOR, demonstrate that our framework achieves state-of-the-art performance.