SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

📄 arXiv: 2411.06780v3 📥 PDF

作者: Shubo Lin, Yutong Kou, Zirui Wu, Shaoru Wang, Bing Li, Weiming Hu, Jin Gao

分类: cs.CV

发布日期: 2024-11-11 (更新: 2025-05-16)

备注: 11 pages, 6 figures


💡 一句话要点

SynCL:结合实例感知对比学习的协同训练策略,用于端到端多相机3D跟踪

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标跟踪 3D跟踪 端到端跟踪 对比学习 协同训练 多相机系统 目标检测

📋 核心要点

  1. 现有基于查询的端到端3D跟踪器在共享参数时,检测和跟踪任务相互制约,导致优化困难。
  2. SynCL提出了一种协同训练策略,通过任务特定混合匹配和实例感知对比学习,促进检测和跟踪的多任务学习。
  3. SynCL在nuScenes数据集上实现了58.9%的AMOTA,无需额外推理成本,达到了最先进的性能。

📝 摘要(中文)

现有的基于查询的3D端到端视觉跟踪器通过跟踪-通过-注意力范式集成了检测和跟踪,但当这两个“鸡生蛋蛋生鸡”的任务共享相同参数时,会遇到优化困难。我们的研究表明,这些困难源于自注意力机制的两个固有约束,即对象查询的过度重复和跟踪查询的自我中心注意力。相反,移除自注意力机制不仅对跟踪器的回归预测影响最小,而且往往会生成更多的潜在候选框。基于这些分析,我们提出了SynCL,一种新颖的即插即用协同训练策略,旨在共同促进检测和跟踪的多任务学习。具体来说,我们提出了一个任务特定的混合匹配模块,用于基于权重共享的交叉注意力解码器,该模块将跟踪查询的目标与多个对象查询匹配,以利用自注意力机制忽略的有希望的候选对象。为了灵活地为一对多匹配选择最佳候选对象,我们还设计了一个由模型训练状态控制的动态查询过滤模块。此外,我们引入了实例感知对比学习,以打破跟踪查询的自我中心注意力的障碍,有效地弥合了检测和跟踪之间的差距。在不增加额外推理成本的情况下,SynCL在各种基准测试中持续提供改进,并在nuScenes数据集上实现了最先进的性能,AMOTA为58.9%。代码和原始结果将公开发布。

🔬 方法详解

问题定义:论文旨在解决端到端多相机3D跟踪中,检测和跟踪任务共享参数时出现的优化困难。现有方法依赖自注意力机制,但存在对象查询过度重复和跟踪查询自我中心注意力的问题,限制了性能提升。

核心思路:论文的核心思路是通过协同训练策略,解耦检测和跟踪任务的优化过程。具体来说,通过混合匹配模块利用更多潜在候选框,并使用实例感知对比学习打破跟踪查询的自我中心注意力,从而促进多任务学习。

技术框架:SynCL采用基于查询的端到端跟踪框架,主要包含以下模块:1) 权重共享的交叉注意力解码器;2) 任务特定的混合匹配模块,用于将跟踪查询与多个对象查询匹配;3) 动态查询过滤模块,用于选择最佳候选对象;4) 实例感知对比学习模块,用于增强跟踪查询的区分性。

关键创新:论文的关键创新在于:1) 提出了任务特定的混合匹配模块,克服了自注意力机制的局限性,利用了更多潜在候选框;2) 设计了动态查询过滤模块,能够根据模型训练状态自适应地选择最佳候选对象;3) 引入了实例感知对比学习,打破了跟踪查询的自我中心注意力,有效弥合了检测和跟踪之间的差距。

关键设计:任务特定的混合匹配模块通过交叉注意力机制,将跟踪查询与多个对象查询进行匹配,并使用动态查询过滤模块选择最佳匹配。实例感知对比学习通过构造正负样本对,优化跟踪查询的嵌入表示,使其更具区分性。损失函数包括检测损失、跟踪损失和对比学习损失,共同优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SynCL在nuScenes数据集上取得了显著的性能提升,AMOTA达到了58.9%,超越了现有最先进的方法。该方法无需增加额外的推理成本,即可在各种基准测试中持续提供改进,证明了其有效性和实用性。消融实验也验证了各个模块的有效性,例如,混合匹配模块和实例感知对比学习均能带来显著的性能提升。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域,提升多目标跟踪的准确性和鲁棒性。通过协同训练策略,可以有效解决复杂场景下的目标遮挡、光照变化等问题,为相关应用提供更可靠的环境感知能力,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

While existing query-based 3D end-to-end visual trackers integrate detection and tracking via the tracking-by-attention paradigm, these two chicken-and-egg tasks encounter optimization difficulties when sharing the same parameters. Our findings reveal that these difficulties arise due to two inherent constraints on the self-attention mechanism, i.e., over-deduplication for object queries and self-centric attention for track queries. In contrast, removing the self-attention mechanism not only minimally impacts regression predictions of the tracker, but also tends to generate more latent candidate boxes. Based on these analyses, we present SynCL, a novel plug-and-play synergistic training strategy designed to co-facilitate multi-task learning for detection and tracking. Specifically, we propose a Task-specific Hybrid Matching module for a weight-shared cross-attention-based decoder that matches the targets of track queries with multiple object queries to exploit promising candidates overlooked by the self-attention mechanism. To flexibly select optimal candidates for the one-to-many matching, we also design a Dynamic Query Filtering module controlled by model training status. Moreover, we introduce Instance-aware Contrastive Learning to break through the barrier of self-centric attention for track queries, effectively bridging the gap between detection and tracking. Without additional inference costs, SynCL consistently delivers improvements in various benchmarks and achieves state-of-the-art performance with $58.9\%$ AMOTA on the nuScenes dataset. Code and raw results will be publicly available.