Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking

📄 arXiv: 2407.14086v2 📥 PDF

作者: Yunfei Zhang, Chao Liang, Jin Gao, Zhipeng Zhang, Weiming Hu, Stephen Maybank, Xue Zhou, Liang Li

分类: cs.CV

发布日期: 2024-07-19 (更新: 2024-08-06)

备注: A submission to IJCV

🔗 代码/项目: GITHUB


💡 一句话要点

TCBTrack:利用时序相关性和轻量级嵌入,实现第二代JDE实时多目标跟踪

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 多目标跟踪 联合检测和嵌入 时序相关性 特征提取 ReID 实时跟踪 运动特征

📋 核心要点

  1. 现有JDE跟踪器在检测器和特征提取器之间存在竞争,且直接嵌入ReID任务导致外观特征区分性不足。
  2. 提出TCBTrack,利用互相关捕获时序信息,使网络学习更丰富的运动特征,解决类间特征相似性问题。
  3. TCBTrack在MOT17、MOT20和DanceTrack数据集上取得了SOTA性能,尤其在DanceTrack测试集上表现突出。

📝 摘要(中文)

联合检测和嵌入(JDE)跟踪器通过将外观特征提取作为辅助任务,将ReID任务嵌入到检测器中,在多目标跟踪(MOT)任务中表现出优异的性能,实现了推理速度和跟踪性能之间的平衡。然而,解决检测器和特征提取器之间的竞争一直是一个挑战。同时,直接将ReID任务嵌入到MOT中的问题仍未解决。外观特征缺乏高区分性导致其效用有限。本文提出了一种新的学习方法,使用互相关来捕获对象的时间信息。特征提取网络不再仅基于每一帧的外观特征进行训练,而是通过利用连续帧的特征热图来学习更丰富的运动特征,从而解决了类间特征相似性的挑战。此外,我们的学习方法应用于更轻量级的特征提取网络,并将特征匹配分数视为强线索而不是辅助线索,通过适当的权重计算来反映我们获得的特征与MOT任务之间的兼容性。我们的跟踪器TCBTrack在多个公共基准数据集(即MOT17、MOT20和DanceTrack数据集)上实现了最先进的性能。特别是在DanceTrack测试集上,我们实现了56.8 HOTA、58.1 IDF1和92.5 MOTA,使其成为能够实现实时性能的最佳在线跟踪器。与其他跟踪器的比较评估证明,我们的跟踪器在速度、鲁棒性和准确性之间实现了最佳平衡。

🔬 方法详解

问题定义:现有基于JDE的多目标跟踪方法,虽然在速度和精度上取得了一定的平衡,但仍然面临两个主要问题:一是检测器和特征提取器之间的竞争,导致性能瓶颈;二是直接将ReID任务嵌入到MOT中,提取的外观特征区分性不足,限制了跟踪器的性能。现有方法难以充分利用时序信息,导致在复杂场景下跟踪效果不佳。

核心思路:本文的核心思路是利用时序相关性来增强特征的区分性。通过引入互相关操作,使特征提取网络能够学习到连续帧之间的运动信息,从而弥补了仅依赖单帧外观特征的不足。将特征匹配分数作为强线索,并进行适当的权重计算,以更好地适应MOT任务。

技术框架:TCBTrack的整体框架仍然基于JDE,但改进了特征提取部分。首先,使用轻量级的特征提取网络。然后,利用连续帧的特征热图计算互相关,得到包含时序信息的特征表示。最后,将特征匹配分数作为强线索,结合检测结果进行目标跟踪。

关键创新:最重要的技术创新点在于利用互相关来捕获目标的时序信息。与现有方法仅依赖单帧外观特征不同,TCBTrack通过学习连续帧之间的运动信息,显著提高了特征的区分性,从而提升了跟踪器的鲁棒性和准确性。

关键设计:在特征提取网络的选择上,使用了轻量级的网络结构,以保证实时性。互相关的计算方式采用了标准的互相关操作。在权重计算方面,设计了适当的权重函数,以平衡特征匹配分数和检测结果的重要性。损失函数方面,综合考虑了检测损失、ReID损失和匹配损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TCBTrack在MOT17、MOT20和DanceTrack等多个公开数据集上取得了state-of-the-art的性能。特别是在DanceTrack测试集上,TCBTrack达到了56.8 HOTA, 58.1 IDF1和92.5 MOTA,显著优于其他在线跟踪器,并在速度、鲁棒性和准确性之间实现了最佳平衡。

🎯 应用场景

TCBTrack具有广泛的应用前景,包括智能视频监控、自动驾驶、机器人导航、体育赛事分析等领域。该研究成果能够提升复杂场景下多目标跟踪的准确性和鲁棒性,为相关应用提供更可靠的技术支持,并推动智能视频分析技术的发展。

📄 摘要(原文)

Joint Detection and Embedding (JDE) trackers have demonstrated excellent performance in Multi-Object Tracking (MOT) tasks by incorporating the extraction of appearance features as auxiliary tasks through embedding Re-Identification task (ReID) into the detector, achieving a balance between inference speed and tracking performance. However, solving the competition between the detector and the feature extractor has always been a challenge. Meanwhile, the issue of directly embedding the ReID task into MOT has remained unresolved. The lack of high discriminability in appearance features results in their limited utility. In this paper, a new learning approach using cross-correlation to capture temporal information of objects is proposed. The feature extraction network is no longer trained solely on appearance features from each frame but learns richer motion features by utilizing feature heatmaps from consecutive frames, which addresses the challenge of inter-class feature similarity. Furthermore, our learning approach is applied to a more lightweight feature extraction network, and treat the feature matching scores as strong cues rather than auxiliary cues, with an appropriate weight calculation to reflect the compatibility between our obtained features and the MOT task. Our tracker, named TCBTrack, achieves state-of-the-art performance on multiple public benchmarks, i.e., MOT17, MOT20, and DanceTrack datasets. Specifically, on the DanceTrack test set, we achieve 56.8 HOTA, 58.1 IDF1 and 92.5 MOTA, making it the best online tracker capable of achieving real-time performance. Comparative evaluations with other trackers prove that our tracker achieves the best balance between speed, robustness and accuracy. Code is available at https://github.com/yfzhang1214/TCBTrack.