When to Extract ReID Features: A Selective Approach for Improved Multiple Object Tracking

📄 arXiv: 2409.06617v2 📥 PDF

作者: Emirhan Bayar, Cemal Aker

分类: cs.CV

发布日期: 2024-09-10 (更新: 2024-11-21)

备注: 8 pages, 5 figures. Presents a selective approach for ReID feature extraction in Multiple Object Tracking, reducing computational overhead while maintaining accuracy. Tested on StrongSORT and Deep OC-SORT using MOT17, MOT20, and DanceTrack datasets. Code: https://github.com/emirhanbayar/Fast-StrongSORT, https://github.com/emirhanbayar/Fast-Deep-OC-SORT

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

提出一种选择性ReID特征提取方法,在多目标跟踪中降低计算开销并提升精度。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 多目标跟踪 Re-Identification 特征提取 选择性策略 边缘计算

📋 核心要点

  1. 现有MOT方法依赖ReID特征应对遮挡,但计算开销大,不适用于边缘设备。
  2. 提出选择性ReID特征提取方法,仅在必要时提取特征,降低计算量。
  3. 实验表明,该方法在保持精度的同时,显著减少了运行时间,尤其在遮挡和形变场景下。

📝 摘要(中文)

许多先进的多目标跟踪(MOT)方法利用Re-Identification(ReID)特征提取和匹配,尤其在频繁和长期遮挡情况下表现出色。尽管端到端的目标检测和跟踪是近期研究的重点,但在MOT17和MOT20等基准测试中,它们尚未超越传统方法。因此,从应用角度来看,具有独立检测和嵌入的方法在准确性、模块化和易于实现方面仍然是最佳选择,但由于开销,它们不适用于边缘设备。本文研究了一种选择性方法,以最大限度地减少特征提取的开销,同时保持准确性、模块化和易于实现。该方法可以集成到各种SOTA方法中。通过将其应用于StrongSORT和Deep OC-SORT,证明了其有效性。在MOT17、MOT20和DanceTrack数据集上的实验表明,我们的机制保留了特征提取在遮挡期间的优势,同时显著减少了运行时间。此外,它通过防止特征匹配阶段的混淆来提高准确性,尤其是在DanceTrack中常见的变形和外观相似的情况下。

🔬 方法详解

问题定义:现有基于ReID的多目标跟踪方法,虽然在遮挡场景下表现良好,但ReID特征提取过程计算量大,导致整体运行速度慢,难以部署在资源受限的边缘设备上。痛点在于如何在保证跟踪精度的前提下,降低ReID特征提取的计算开销。

核心思路:核心思想是仅在必要时才进行ReID特征提取,而不是对每一帧都提取。通过设计一种选择机制,判断当前目标是否需要进行ReID特征提取和匹配。这样可以避免在目标外观变化不大或没有发生遮挡时进行不必要的计算。

技术框架:该方法可以集成到现有的多目标跟踪框架中,例如StrongSORT和Deep OC-SORT。整体流程如下:1. 目标检测;2. 状态预测与更新;3. 选择性ReID特征提取(基于选择机制);4. 数据关联(包括基于运动和外观的关联);5. 轨迹管理。选择性ReID特征提取模块是关键,它决定了何时进行ReID特征提取。

关键创新:最重要的创新点在于提出了一个选择机制,用于判断何时进行ReID特征提取。该机制可能基于目标运动状态、遮挡情况、外观变化等因素。与现有方法的本质区别在于,现有方法通常对每一帧都进行ReID特征提取,而该方法只在必要时才进行,从而降低了计算开销。

关键设计:具体的选择机制设计细节未知,可能包括以下方面:1. 运动状态判断:例如,如果目标运动速度较慢或静止,则可能不需要提取ReID特征。2. 遮挡判断:例如,如果目标被遮挡,则需要提取ReID特征,以便在遮挡结束后重新识别目标。3. 外观变化判断:例如,如果目标外观变化较大,则需要提取ReID特征,以便更新目标的外观模型。具体的参数设置、损失函数、网络结构等技术细节在论文中可能有所描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MOT17、MOT20和DanceTrack数据集上的实验表明,该方法在保持甚至提高跟踪精度的同时,显著减少了运行时间。具体性能数据未知,但摘要中提到该方法保留了特征提取在遮挡期间的优势,同时显著减少了运行时间,并且通过防止特征匹配阶段的混淆来提高准确性,尤其是在DanceTrack中常见的变形和外观相似的情况下。通过集成到StrongSORT和Deep OC-SORT,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于智能安防、自动驾驶、机器人导航等领域。通过降低多目标跟踪的计算开销,使其能够部署在资源受限的边缘设备上,例如智能摄像头、无人机等。这将有助于实现更实时、更高效的视频分析和目标跟踪,提升相关应用的智能化水平。未来,该方法可以进一步扩展到其他需要进行目标识别和跟踪的场景,例如人机交互、虚拟现实等。

📄 摘要(原文)

Extracting and matching Re-Identification (ReID) features is used by many state-of-the-art (SOTA) Multiple Object Tracking (MOT) methods, particularly effective against frequent and long-term occlusions. While end-to-end object detection and tracking have been the main focus of recent research, they have yet to outperform traditional methods in benchmarks like MOT17 and MOT20. Thus, from an application standpoint, methods with separate detection and embedding remain the best option for accuracy, modularity, and ease of implementation, though they are impractical for edge devices due to the overhead involved. In this paper, we investigate a selective approach to minimize the overhead of feature extraction while preserving accuracy, modularity, and ease of implementation. This approach can be integrated into various SOTA methods. We demonstrate its effectiveness by applying it to StrongSORT and Deep OC-SORT. Experiments on MOT17, MOT20, and DanceTrack datasets show that our mechanism retains the advantages of feature extraction during occlusions while significantly reducing runtime. Additionally, it improves accuracy by preventing confusion in the feature-matching stage, particularly in cases of deformation and appearance similarity, which are common in DanceTrack. https://github.com/emirhanbayar/Fast-StrongSORT, https://github.com/emirhanbayar/Fast-Deep-OC-SORT