TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT

📄 arXiv: 2409.02490v1 📥 PDF

作者: Duy Le Dinh Anh, Kim Hoang Tran, Ngan Hoang Le

分类: cs.CV

发布日期: 2024-09-04

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出TP-GMOT框架,通过文本提示和运动-外观代价解决通用多目标跟踪问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多目标跟踪 文本提示 通用目标跟踪 对象检测 运动外观融合

📋 核心要点

  1. 现有MOT方法依赖先验知识,难以处理未见过的对象类别和外观相似的目标。
  2. TP-GMOT利用文本提示进行对象检测,并结合运动和外观信息进行目标关联。
  3. 在Refer-GMOT数据集上验证了TP-GMOT的有效性,并在MOT数据集上进行了泛化能力评估。

📝 摘要(中文)

多目标跟踪(MOT)取得了显著进展,但严重依赖先验知识且仅限于预定义类别。通用多目标跟踪(GMOT)跟踪外观相似的多个对象,需要较少的先验信息,但面临视角、光照、遮挡和分辨率等挑战。本文首先引入了 extbf{Refer-GMOT数据集},该数据集包含视频以及对象属性的细粒度文本描述。其次,提出了一个基于文本提示的开放词汇GMOT框架,称为 extbf{TP-GMOT},无需训练示例即可跟踪从未见过的对象类别。在 ext{TP-GMOT}框架中,引入了两个新组件:(i) { extbf{TP-OD},一种通过文本提示进行对象检测的方法},用于准确检测具有特定特征的未见对象。(ii) 运动-外观代价SORT extbf{MAC-SORT},一种新颖的对象关联方法,巧妙地集成了基于运动和外观的匹配策略,以解决跟踪多个具有高度相似性的通用对象的复杂任务。在 ext{Refer-GMOT}数据集上对GMOT任务进行了基准测试。此外,为了评估所提出的 ext{TP-GMOT}框架的泛化能力和 ext{MAC-SORT}跟踪器的有效性,在DanceTrack和MOT20数据集上进行了消融研究,用于MOT任务。数据集、代码和模型将在https://fsoft-aic.github.io/TP-GMOT上公开。

🔬 方法详解

问题定义:现有MOT方法在处理通用多目标跟踪(GMOT)任务时,面临着两个主要痛点。一是依赖于预定义的类别和大量的训练数据,无法有效跟踪未见过的对象类别。二是当多个对象外观相似时,容易发生ID跳变,跟踪精度下降。

核心思路:TP-GMOT的核心思路是利用文本提示来指导对象检测,从而实现对未见对象的跟踪。同时,通过融合运动信息和外观信息,提高对象关联的准确性,解决外观相似对象跟踪中的ID跳变问题。这种设计使得模型能够灵活地适应不同的跟踪场景,并具有较强的泛化能力。

技术框架:TP-GMOT框架主要包含两个核心模块:TP-OD(Text Prompt-based Object Detection)和MAC-SORT(Motion-Appearance Cost SORT)。首先,TP-OD模块利用文本提示检测图像中的目标对象。然后,MAC-SORT模块利用运动信息和外观信息对检测到的目标进行关联,实现多目标跟踪。整个流程可以概括为:输入视频帧 -> TP-OD进行目标检测(利用文本提示) -> MAC-SORT进行目标关联 -> 输出跟踪结果。

关键创新:TP-GMOT的关键创新在于以下两点:一是引入了文本提示来指导对象检测,使得模型能够跟踪未见过的对象类别。二是提出了MAC-SORT算法,通过融合运动信息和外观信息,提高了对象关联的准确性。与传统的MOT方法相比,TP-GMOT不需要预先定义的对象类别,并且能够更好地处理外观相似的对象。

关键设计:TP-OD模块可能使用了CLIP等预训练模型,将文本提示和图像特征映射到同一空间,并通过相似度计算来检测目标。MAC-SORT算法的关键在于运动代价和外观代价的计算方式。运动代价可能基于卡尔曼滤波预测的目标位置与当前检测到的目标位置之间的距离。外观代价可能基于ReID特征的相似度。最终的代价函数可能是运动代价和外观代价的加权和,权重参数需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TP-GMOT在Refer-GMOT数据集上取得了显著的性能提升,证明了其在通用多目标跟踪任务上的有效性。此外,在DanceTrack和MOT20数据集上的消融实验表明,MAC-SORT算法能够有效提高跟踪精度,尤其是在处理外观相似的对象时。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。例如,在智能监控中,可以通过文本描述快速定位和跟踪特定目标;在自动驾驶中,可以跟踪行人、车辆等动态目标,提高驾驶安全性;在机器人导航中,可以帮助机器人识别和跟踪目标物体,完成特定任务。

📄 摘要(原文)

While Multi-Object Tracking (MOT) has made substantial advancements, it is limited by heavy reliance on prior knowledge and limited to predefined categories. In contrast, Generic Multiple Object Tracking (GMOT), tracking multiple objects with similar appearance, requires less prior information about the targets but faces challenges with variants like viewpoint, lighting, occlusion, and resolution. Our contributions commence with the introduction of the \textbf{\text{Refer-GMOT dataset}} a collection of videos, each accompanied by fine-grained textual descriptions of their attributes. Subsequently, we introduce a novel text prompt-based open-vocabulary GMOT framework, called \textbf{\text{TP-GMOT}}, which can track never-seen object categories with zero training examples. Within \text{TP-GMOT} framework, we introduce two novel components: (i) {\textbf{\text{TP-OD}}, an object detection by a textual prompt}, for accurately detecting unseen objects with specific characteristics. (ii) Motion-Appearance Cost SORT \textbf{\text{MAC-SORT}}, a novel object association approach that adeptly integrates motion and appearance-based matching strategies to tackle the complex task of tracking multiple generic objects with high similarity. Our contributions are benchmarked on the \text{Refer-GMOT} dataset for GMOT task. Additionally, to assess the generalizability of the proposed \text{TP-GMOT} framework and the effectiveness of \text{MAC-SORT} tracker, we conduct ablation studies on the DanceTrack and MOT20 datasets for the MOT task. Our dataset, code, and models will be publicly available at: https://fsoft-aic.github.io/TP-GMOT