On the Potential of Open-Vocabulary Models for Object Detection in Unusual Street Scenes

📄 arXiv: 2408.11221v1 📥 PDF

作者: Sadia Ilyas, Ido Freeman, Matthias Rottmann

分类: cs.CV

发布日期: 2024-08-20


💡 一句话要点

评估开放词汇模型在异常街景目标检测中的潜力,揭示其在开放世界场景下的局限性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 异常检测 街景理解 分布外检测 Transformer模型

📋 核心要点

  1. 现有目标检测器在处理与训练数据分布不同的异常街景目标时表现不佳,限制了其在开放世界场景中的应用。
  2. 该研究评估了当前流行的开放词汇目标检测模型在异常街景目标检测任务中的性能,探索其在开放世界场景下的潜力。
  3. 实验结果表明,开放词汇模型在异常目标检测方面具有潜力,但仍存在不足,需要在实际应用中进一步改进。

📝 摘要(中文)

本研究旨在探索最先进的开放词汇目标检测器在检测异常街景中的目标(即与训练数据分布不同的目标)方面的能力。具体而言,我们评估了这些模型在OoDIS基准测试上的性能,该基准扩展了SegmentMeIfYouCan中的RoadAnomaly21和RoadObstacle21,以及最近扩展到目标级别注释的LostAndFound。我们的目标是揭示当前目标检测器在具有挑战性的真实世界,特别是开放世界场景中的缺点。实验表明,开放词汇模型在OOD目标检测场景中具有潜力,但远非完美。在可靠地部署到实际应用中之前,还需要进行大量的改进。我们对三个不同的数据集上的四个最先进的开放词汇目标检测模型进行了基准测试。值得注意的是,Grounding DINO在我们的研究中,在RoadObstacle21和LostAndFound上取得了最佳结果,AP分别为48.3%和25.4%。YOLO-World在RoadAnomaly21上表现出色,AP为21.2%。

🔬 方法详解

问题定义:论文旨在解决在异常街景中进行目标检测的问题,即检测那些不在常见街景数据集训练范围内的物体。现有目标检测方法在处理这种分布外(OOD)数据时,泛化能力不足,导致检测性能显著下降。这些方法通常依赖于封闭世界的假设,无法有效识别和定位未见过的物体类别。

核心思路:论文的核心思路是利用开放词汇目标检测模型,这些模型不局限于预定义的类别集合,而是能够基于文本描述识别物体。通过利用预训练的视觉-语言模型,这些检测器可以识别和定位训练数据中未包含的物体类别,从而提高在异常街景中的目标检测性能。

技术框架:该研究采用了一种评估框架,对四个最先进的开放词汇目标检测模型在三个不同的数据集上进行了基准测试。这些数据集包括RoadAnomaly21、RoadObstacle21和LostAndFound,它们都包含异常或罕见的街景场景。研究人员使用平均精度(AP)作为评估指标,衡量模型在检测这些异常物体方面的性能。

关键创新:该研究的关键创新在于对开放词汇目标检测模型在异常街景目标检测任务中的潜力进行了系统性的评估。通过在多个数据集上进行实验,研究人员揭示了这些模型在处理OOD数据时的优势和局限性。此外,该研究还为未来的研究方向提供了指导,例如如何进一步提高开放词汇模型在实际应用中的可靠性。

关键设计:该研究选择了Grounding DINO和YOLO-World等具有代表性的开放词汇目标检测模型进行评估。这些模型通常采用Transformer架构,并结合了对比学习等技术,以实现视觉和语言信息的有效融合。具体的参数设置和训练细节可能因模型而异,但总体目标是使模型能够根据文本描述识别和定位图像中的物体。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Grounding DINO在RoadObstacle21和LostAndFound数据集上分别取得了48.3%和25.4%的AP,而YOLO-World在RoadAnomaly21数据集上取得了21.2%的AP。这些结果表明,开放词汇模型在异常街景目标检测方面具有一定的潜力,但与在常见数据集上的性能相比,仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于自动驾驶、智能监控、机器人导航等领域,提升系统在复杂和未知环境下的感知能力。通过检测异常物体,可以提高安全性,例如及时发现道路上的障碍物或异常行人,从而避免交通事故。未来,该技术有望应用于更广泛的开放世界场景,例如灾难救援和环境监测。

📄 摘要(原文)

Out-of-distribution (OOD) object detection is a critical task focused on detecting objects that originate from a data distribution different from that of the training data. In this study, we investigate to what extent state-of-the-art open-vocabulary object detectors can detect unusual objects in street scenes, which are considered as OOD or rare scenarios with respect to common street scene datasets. Specifically, we evaluate their performance on the OoDIS Benchmark, which extends RoadAnomaly21 and RoadObstacle21 from SegmentMeIfYouCan, as well as LostAndFound, which was recently extended to object level annotations. The objective of our study is to uncover short-comings of contemporary object detectors in challenging real-world, and particularly in open-world scenarios. Our experiments reveal that open vocabulary models are promising for OOD object detection scenarios, however far from perfect. Substantial improvements are required before they can be reliably deployed in real-world applications. We benchmark four state-of-the-art open-vocabulary object detection models on three different datasets. Noteworthily, Grounding DINO achieves the best results on RoadObstacle21 and LostAndFound in our study with an AP of 48.3% and 25.4% respectively. YOLO-World excels on RoadAnomaly21 with an AP of 21.2%.