OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

📄 arXiv: 2503.10616v3 📥 PDF

作者: Jinyang Li, En Yu, Sijia Chen, Wenbing Tao

分类: cs.CV

发布日期: 2025-03-13 (更新: 2025-03-30)

备注: Accepted by ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出OVTR,首个端到端开放词汇多目标跟踪Transformer模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇跟踪 多目标跟踪 Transformer 类别信息传播 端到端学习

📋 核心要点

  1. 现有开放词汇跟踪器受限于框架结构、孤立的帧级感知和不足的模态交互,影响了其在开放词汇分类和跟踪中的性能。
  2. OVTR通过类别信息传播(CIP)策略,为后续帧建立多个高级类别信息先验,从而实现稳定的分类和连续跟踪。
  3. 实验表明,OVTR在开放词汇MOT基准上优于现有方法,同时具有更快的推理速度和更强的跨数据集适应性。

📝 摘要(中文)

本文提出OVTR(基于Transformer的端到端开放词汇多目标跟踪),是首个同时建模运动、外观和类别的端到端开放词汇跟踪器。为实现稳定的分类和连续的跟踪,设计了CIP(类别信息传播)策略,为后续帧建立多个高级类别信息先验。此外,引入了用于泛化能力和深度多模态交互的双分支结构,并在解码器中加入了保护策略以提高性能。实验结果表明,该方法在开放词汇MOT基准上超越了以往的跟踪器,同时实现了更快的推理速度并显著减少了预处理需求。此外,将模型迁移到另一个数据集的实验证明了其强大的适应性。

🔬 方法详解

问题定义:开放词汇多目标跟踪旨在将跟踪器推广到训练期间未见过的类别,使其能够应用于各种现实场景。现有方法的痛点在于框架结构的限制,帧级别感知的孤立性,以及模态间交互的不足,导致在开放词汇分类和跟踪任务中表现不佳。

核心思路:OVTR的核心思路是设计一个端到端的Transformer模型,同时建模运动、外观和类别信息,并通过类别信息传播(CIP)策略,在时间维度上建立类别信息先验,从而实现更稳定和连续的跟踪。双分支结构用于增强模型的泛化能力和多模态交互能力。

技术框架:OVTR采用端到端的Transformer架构,包含以下主要模块:1) 特征提取模块:提取图像帧的视觉特征和文本描述的语义特征。2) Transformer编码器:融合视觉和语义特征,进行多模态交互。3) Transformer解码器:预测目标的位置、类别和身份信息。4) 类别信息传播(CIP)模块:将当前帧的类别信息传递给后续帧,作为类别先验。

关键创新:OVTR的关键创新在于:1) 提出端到端的开放词汇多目标跟踪框架,简化了流程,提高了效率。2) 设计了类别信息传播(CIP)策略,有效利用了时间维度上的类别信息,提高了跟踪的稳定性和连续性。3) 引入双分支结构,增强了模型的泛化能力和多模态交互能力。

关键设计:OVTR的关键设计包括:1) CIP模块的具体实现方式,例如如何选择和传递类别信息。2) 双分支结构的设计细节,例如两个分支分别处理哪些模态的信息。3) 解码器中的保护策略,例如如何防止错误的预测信息影响后续帧的跟踪结果。4) 损失函数的设计,例如如何平衡分类损失和跟踪损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OVTR在开放词汇MOT基准测试中取得了显著的性能提升,超越了以往的跟踪器。同时,OVTR具有更快的推理速度,并显著减少了预处理需求。将OVTR模型迁移到另一个数据集的实验表明,OVTR具有强大的适应性。具体性能数据需要在论文中查找。

🎯 应用场景

OVTR具有广泛的应用前景,例如智能监控、自动驾驶、机器人导航等领域。它可以用于跟踪和识别各种目标,包括行人、车辆、动物等,即使这些目标在训练数据中没有出现过。该研究的实际价值在于提高了多目标跟踪系统的泛化能力和适应性,使其能够更好地应对复杂的现实场景。未来,OVTR可以进一步扩展到更多的应用领域,例如视频分析、智能交通等。

📄 摘要(原文)

Open-vocabulary multiple object tracking aims to generalize trackers to unseen categories during training, enabling their application across a variety of real-world scenarios. However, the existing open-vocabulary tracker is constrained by its framework structure, isolated frame-level perception, and insufficient modal interactions, which hinder its performance in open-vocabulary classification and tracking. In this paper, we propose OVTR (End-to-End Open-Vocabulary Multiple Object Tracking with TRansformer), the first end-to-end open-vocabulary tracker that models motion, appearance, and category simultaneously. To achieve stable classification and continuous tracking, we design the CIP (Category Information Propagation) strategy, which establishes multiple high-level category information priors for subsequent frames. Additionally, we introduce a dual-branch structure for generalization capability and deep multimodal interaction, and incorporate protective strategies in the decoder to enhance performance. Experimental results show that our method surpasses previous trackers on the open-vocabulary MOT benchmark while also achieving faster inference speeds and significantly reducing preprocessing requirements. Moreover, the experiment transferring the model to another dataset demonstrates its strong adaptability. Models and code are released at https://github.com/jinyanglii/OVTR.