DepTR-MOT: Unveiling the Potential of Depth-Informed Trajectory Refinement for Multi-Object Tracking

📄 arXiv: 2509.17323v1 📥 PDF

作者: Buyin Deng, Lingxin Huang, Kai Luo, Fei Teng, Kailun Yang

分类: cs.CV, cs.RO, eess.IV

发布日期: 2025-09-22

备注: The source code will be made publicly available at https://github.com/warriordby/DepTR-MOT

🔗 代码/项目: GITHUB


💡 一句话要点

DepTR-MOT:利用深度信息优化轨迹,提升多目标跟踪在机器人环境下的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多目标跟踪 深度信息 机器人感知 DETR 轨迹优化

📋 核心要点

  1. 现有MOT方法依赖2D信息,在遮挡和近距离交互场景下表现不佳,尤其是在机器人环境中。
  2. DepTR-MOT通过引入实例级深度信息,并采用软深度标签监督和深度图蒸馏,提升跟踪鲁棒性。
  3. 实验表明,DepTR-MOT在QuadTrack和DanceTrack数据集上均取得了显著的HOTA分数提升,尤其在QuadTrack上优势明显。

📝 摘要(中文)

视觉多目标跟踪(MOT)是机器人感知中的关键组成部分,但现有的基于检测的跟踪(TBD)方法通常依赖于2D线索,如边界框和运动建模,这在遮挡和近距离交互下表现不佳。在目标密集和频繁遮挡的机器人环境中,依赖这些2D线索的跟踪器尤其不可靠。虽然深度信息有潜力缓解这些问题,但大多数现有的MOT数据集缺乏深度标注,导致其在该领域的作用未得到充分利用。为了揭示深度信息轨迹优化的潜力,我们引入了DepTR-MOT,这是一种基于DETR的检测器,通过实例级深度信息进行增强。具体来说,我们提出了两个关键创新:(i) 基于基础模型的实例级软深度标签监督,用于优化深度预测;(ii) 密集深度图的蒸馏,以保持全局深度一致性。这些策略使DepTR-MOT能够在推理期间输出实例级深度,而无需基础模型且无需额外的计算成本。通过结合深度线索,我们的方法增强了TBD范式的鲁棒性,有效地解决了遮挡和近距离挑战。在QuadTrack和DanceTrack数据集上的实验证明了我们方法的有效性,分别实现了27.59和44.47的HOTA分数。特别是,在机器人平台MOT数据集QuadTrack上的结果突出了我们的方法在处理机器人跟踪中的遮挡和近距离挑战方面的优势。源代码将在https://github.com/warriordby/DepTR-MOT上公开。

🔬 方法详解

问题定义:现有的多目标跟踪方法在机器人等复杂环境中,由于频繁的遮挡和目标间的近距离交互,导致跟踪性能下降。这些方法主要依赖于2D图像信息,缺乏对场景深度信息的有效利用,使得跟踪器难以区分被遮挡或距离相近的目标。

核心思路:DepTR-MOT的核心思路是利用深度信息来增强多目标跟踪器的鲁棒性。通过引入实例级别的深度预测,并结合软深度标签监督和深度图蒸馏,使得跟踪器能够更好地理解场景的3D结构,从而更准确地跟踪目标。这样设计的目的是为了克服传统方法在遮挡和近距离交互场景下的局限性。

技术框架:DepTR-MOT基于DETR检测器,并在此基础上进行了改进。整体流程包括:首先,使用DETR检测器检测图像中的目标;然后,通过提出的软深度标签监督和深度图蒸馏方法,预测每个目标的实例级深度信息;最后,将深度信息融入到跟踪过程中,以提高跟踪的准确性和鲁棒性。

关键创新:DepTR-MOT的关键创新在于两个方面:一是提出了基于基础模型的实例级软深度标签监督方法,用于优化深度预测;二是提出了密集深度图的蒸馏方法,以保持全局深度一致性。与现有方法相比,DepTR-MOT能够有效地利用深度信息,从而在遮挡和近距离交互场景下取得更好的跟踪效果。

关键设计:在软深度标签监督方面,使用预训练的基础模型生成伪深度标签,并将其作为软标签来监督深度预测网络的训练。在深度图蒸馏方面,通过最小化预测深度图与蒸馏得到的深度图之间的差异,来保持全局深度一致性。损失函数包括检测损失、深度预测损失和蒸馏损失。具体参数设置和网络结构细节请参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DepTR-MOT在QuadTrack数据集上取得了显著的性能提升,HOTA分数达到27.59,表明其在机器人环境下的遮挡和近距离交互场景中具有优势。在DanceTrack数据集上,HOTA分数达到44.47,也验证了该方法在通用场景下的有效性。这些结果表明,引入深度信息能够显著提升多目标跟踪的性能。

🎯 应用场景

DepTR-MOT在机器人感知领域具有广泛的应用前景,例如自动驾驶、服务机器人、工业机器人等。通过提高多目标跟踪的准确性和鲁棒性,可以提升机器人在复杂环境中的导航、避障和人机交互能力。该研究还有助于推动深度信息在视觉跟踪领域的应用,并为未来的相关研究提供借鉴。

📄 摘要(原文)

Visual Multi-Object Tracking (MOT) is a crucial component of robotic perception, yet existing Tracking-By-Detection (TBD) methods often rely on 2D cues, such as bounding boxes and motion modeling, which struggle under occlusions and close-proximity interactions. Trackers relying on these 2D cues are particularly unreliable in robotic environments, where dense targets and frequent occlusions are common. While depth information has the potential to alleviate these issues, most existing MOT datasets lack depth annotations, leading to its underexploited role in the domain. To unveil the potential of depth-informed trajectory refinement, we introduce DepTR-MOT, a DETR-based detector enhanced with instance-level depth information. Specifically, we propose two key innovations: (i) foundation model-based instance-level soft depth label supervision, which refines depth prediction, and (ii) the distillation of dense depth maps to maintain global depth consistency. These strategies enable DepTR-MOT to output instance-level depth during inference, without requiring foundation models and without additional computational cost. By incorporating depth cues, our method enhances the robustness of the TBD paradigm, effectively resolving occlusion and close-proximity challenges. Experiments on both the QuadTrack and DanceTrack datasets demonstrate the effectiveness of our approach, achieving HOTA scores of 27.59 and 44.47, respectively. In particular, results on QuadTrack, a robotic platform MOT dataset, highlight the advantages of our method in handling occlusion and close-proximity challenges in robotic tracking. The source code will be made publicly available at https://github.com/warriordby/DepTR-MOT.