OVT-B: A New Large-Scale Benchmark for Open-Vocabulary Multi-Object Tracking

📄 arXiv: 2410.17534v1 📥 PDF

作者: Haiji Liang, Ruize Han

分类: cs.CV

发布日期: 2024-10-23

备注: 15 pages, 6 figures, accepted at NeurIPS 2024 Dataset and Benchmark Track

🔗 代码/项目: GITHUB


💡 一句话要点

构建大规模开放词汇多目标跟踪基准OVT-B,并提出融合运动特征的基线方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标跟踪 多目标跟踪 基准数据集 运动特征 目标检测

📋 核心要点

  1. 现有开放词汇目标跟踪研究不足,主要原因是缺乏大规模、多样化的基准数据集。
  2. 论文提出OVT-B基准,并设计融合运动特征的基线方法,提升跟踪性能。
  3. 实验验证了OVT-B基准的有效性,并证明了所提出的基线方法的优越性。

📝 摘要(中文)

开放词汇目标感知已成为人工智能的重要课题,旨在识别训练期间未见过的类别对象。在这一背景下,单张图像中的开放词汇目标检测(OVD)已得到广泛研究。然而,视频中的开放词汇目标跟踪(OVT)研究较少,原因之一是缺乏基准数据集。本文构建了一个新的大规模开放词汇多目标跟踪基准OVT-B。OVT-B包含1,048个对象类别和1,973个视频,具有637,608个边界框标注,远大于唯一的开放词汇跟踪数据集OVTAO-val(200+类别,900+视频)。提出的OVT-B可用作OVT研究的新基准。我们还开发了一种简单而有效的OVT基线方法,它集成了目标跟踪的运动特征,这是MOT的重要特征,但在之前的OVT方法中被忽略。实验结果验证了所提出的基准的有效性和我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决开放词汇多目标跟踪(OVT)问题,即在视频中跟踪训练期间未见过的类别对象。现有OVT研究面临的痛点是缺乏大规模、高质量的基准数据集,这限制了算法的开发和评估。

核心思路:论文的核心思路是构建一个大规模的OVT基准数据集OVT-B,并提出一个简单有效的基线方法。基线方法的核心在于将运动特征融入到OVT任务中,因为运动信息对于多目标跟踪至关重要,但在之前的OVT方法中往往被忽略。

技术框架:该论文主要贡献在于数据集的构建和基线方法的提出。数据集构建方面,收集并标注了大量视频数据,涵盖多种场景和类别。基线方法的技术框架包括:首先,使用开放词汇目标检测器检测每一帧中的目标;然后,利用运动特征(例如光流或目标的速度)来关联不同帧中的目标,实现跟踪。

关键创新:论文的关键创新在于构建了大规模的OVT-B数据集,并强调了运动特征在OVT任务中的重要性。之前的OVT方法主要关注视觉特征,而忽略了运动信息,这限制了跟踪性能。

关键设计:论文中基线方法的关键设计在于如何有效地融合运动特征。具体实现细节未知,但可以推测可能使用了卡尔曼滤波、匈牙利算法等经典的多目标跟踪算法,并将其与开放词汇目标检测器的输出相结合。损失函数和网络结构等细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含1,048个类别和1,973个视频的大规模OVT-B数据集,显著扩展了现有开放词汇跟踪数据集的规模。实验结果验证了OVT-B作为OVT研究基准的有效性,并证明了所提出的融合运动特征的基线方法的优越性。具体的性能数据和提升幅度在摘要中未给出,属于未知信息。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。通过开放词汇多目标跟踪,系统能够识别和跟踪各种未知的目标,提高环境感知能力和智能化水平。未来,该技术有望在更广泛的场景中得到应用,例如智能安防、物流管理等。

📄 摘要(原文)

Open-vocabulary object perception has become an important topic in artificial intelligence, which aims to identify objects with novel classes that have not been seen during training. Under this setting, open-vocabulary object detection (OVD) in a single image has been studied in many literature. However, open-vocabulary object tracking (OVT) from a video has been studied less, and one reason is the shortage of benchmarks. In this work, we have built a new large-scale benchmark for open-vocabulary multi-object tracking namely OVT-B. OVT-B contains 1,048 categories of objects and 1,973 videos with 637,608 bounding box annotations, which is much larger than the sole open-vocabulary tracking dataset, i.e., OVTAO-val dataset (200+ categories, 900+ videos). The proposed OVT-B can be used as a new benchmark to pave the way for OVT research. We also develop a simple yet effective baseline method for OVT. It integrates the motion features for object tracking, which is an important feature for MOT but is ignored in previous OVT methods. Experimental results have verified the usefulness of the proposed benchmark and the effectiveness of our method. We have released the benchmark to the public at https://github.com/Coo1Sea/OVT-B-Dataset.