SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

作者: Shubo Lin, Yutong Kou, Zirui Wu, Shaoru Wang, Bing Li, Weiming Hu, Jin Gao

分类: cs.CV

发布日期: 2024-11-11 (更新: 2025-05-16)

备注: 11 pages, 6 figures

💡 一句话要点

SynCL：结合实例感知对比学习的协同训练策略，用于端到端多相机3D跟踪

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多目标跟踪 3D跟踪 端到端跟踪 对比学习 协同训练 多相机系统 目标检测

📋 核心要点

现有基于查询的端到端3D跟踪器在共享参数时，检测和跟踪任务相互制约，导致优化困难。
SynCL提出了一种协同训练策略，通过任务特定混合匹配和实例感知对比学习，促进检测和跟踪的多任务学习。
SynCL在nuScenes数据集上实现了58.9%的AMOTA，无需额外推理成本，达到了最先进的性能。

📝 摘要（中文）

现有的基于查询的3D端到端视觉跟踪器通过跟踪-通过-注意力范式集成了检测和跟踪，但当这两个“鸡生蛋蛋生鸡”的任务共享相同参数时，会遇到优化困难。我们的研究表明，这些困难源于自注意力机制的两个固有约束，即对象查询的过度重复和跟踪查询的自我中心注意力。相反，移除自注意力机制不仅对跟踪器的回归预测影响最小，而且往往会生成更多的潜在候选框。基于这些分析，我们提出了SynCL，一种新颖的即插即用协同训练策略，旨在共同促进检测和跟踪的多任务学习。具体来说，我们提出了一个任务特定的混合匹配模块，用于基于权重共享的交叉注意力解码器，该模块将跟踪查询的目标与多个对象查询匹配，以利用自注意力机制忽略的有希望的候选对象。为了灵活地为一对多匹配选择最佳候选对象，我们还设计了一个由模型训练状态控制的动态查询过滤模块。此外，我们引入了实例感知对比学习，以打破跟踪查询的自我中心注意力的障碍，有效地弥合了检测和跟踪之间的差距。在不增加额外推理成本的情况下，SynCL在各种基准测试中持续提供改进，并在nuScenes数据集上实现了最先进的性能，AMOTA为58.9%。代码和原始结果将公开发布。

🔬 方法详解

问题定义：论文旨在解决端到端多相机3D跟踪中，检测和跟踪任务共享参数时出现的优化困难。现有方法依赖自注意力机制，但存在对象查询过度重复和跟踪查询自我中心注意力的问题，限制了性能提升。

核心思路：论文的核心思路是通过协同训练策略，解耦检测和跟踪任务的优化过程。具体来说，通过混合匹配模块利用更多潜在候选框，并使用实例感知对比学习打破跟踪查询的自我中心注意力，从而促进多任务学习。

技术框架：SynCL采用基于查询的端到端跟踪框架，主要包含以下模块：1) 权重共享的交叉注意力解码器；2) 任务特定的混合匹配模块，用于将跟踪查询与多个对象查询匹配；3) 动态查询过滤模块，用于选择最佳候选对象；4) 实例感知对比学习模块，用于增强跟踪查询的区分性。

关键创新：论文的关键创新在于：1) 提出了任务特定的混合匹配模块，克服了自注意力机制的局限性，利用了更多潜在候选框；2) 设计了动态查询过滤模块，能够根据模型训练状态自适应地选择最佳候选对象；3) 引入了实例感知对比学习，打破了跟踪查询的自我中心注意力，有效弥合了检测和跟踪之间的差距。

关键设计：任务特定的混合匹配模块通过交叉注意力机制，将跟踪查询与多个对象查询进行匹配，并使用动态查询过滤模块选择最佳匹配。实例感知对比学习通过构造正负样本对，优化跟踪查询的嵌入表示，使其更具区分性。损失函数包括检测损失、跟踪损失和对比学习损失，共同优化模型参数。

🖼️ 关键图片

📊 实验亮点

SynCL在nuScenes数据集上取得了显著的性能提升，AMOTA达到了58.9%，超越了现有最先进的方法。该方法无需增加额外的推理成本，即可在各种基准测试中持续提供改进，证明了其有效性和实用性。消融实验也验证了各个模块的有效性，例如，混合匹配模块和实例感知对比学习均能带来显著的性能提升。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域，提升多目标跟踪的准确性和鲁棒性。通过协同训练策略，可以有效解决复杂场景下的目标遮挡、光照变化等问题，为相关应用提供更可靠的环境感知能力，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

While existing query-based 3D end-to-end visual trackers integrate detection and tracking via the tracking-by-attention paradigm, these two chicken-and-egg tasks encounter optimization difficulties when sharing the same parameters. Our findings reveal that these difficulties arise due to two inherent constraints on the self-attention mechanism, i.e., over-deduplication for object queries and self-centric attention for track queries. In contrast, removing the self-attention mechanism not only minimally impacts regression predictions of the tracker, but also tends to generate more latent candidate boxes. Based on these analyses, we present SynCL, a novel plug-and-play synergistic training strategy designed to co-facilitate multi-task learning for detection and tracking. Specifically, we propose a Task-specific Hybrid Matching module for a weight-shared cross-attention-based decoder that matches the targets of track queries with multiple object queries to exploit promising candidates overlooked by the self-attention mechanism. To flexibly select optimal candidates for the one-to-many matching, we also design a Dynamic Query Filtering module controlled by model training status. Moreover, we introduce Instance-aware Contrastive Learning to break through the barrier of self-centric attention for track queries, effectively bridging the gap between detection and tracking. Without additional inference costs, SynCL consistently delivers improvements in various benchmarks and achieves state-of-the-art performance with $58.9\%$ AMOTA on the nuScenes dataset. Code and raw results will be publicly available.

SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理