COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm
作者: Zekun Qian, Wei Feng, Ruize Han, Junhui Hou
分类: cs.CV, cs.LG
发布日期: 2026-03-25
💡 一句话要点
COVTrack++:通过协同范式从连续视频中学习开放词汇多目标跟踪
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 开放词汇多目标跟踪 连续视频 协同框架 多线索融合 分层聚合
📋 核心要点
- 现有OVMOT方法缺乏连续标注的训练数据,限制了模型学习对象运动和状态变化的能力。
- COVTrack++提出一个协同框架,通过多线索融合、分层聚合和时间置信度传播,增强检测和关联的互补性。
- 在C-TAO数据集上,COVTrack++显著提升了OVMOT性能,并在零样本场景下展现出良好的泛化能力。
📝 摘要(中文)
多目标跟踪(MOT)传统上侧重于少数特定类别,限制了其在涉及多样化对象的实际场景中的应用。开放词汇多目标跟踪(OVMOT)通过支持任意类别的跟踪(包括训练期间未见过的对象)来解决这个问题。然而,当前的进展受到两个挑战的限制:缺乏用于训练的连续标注视频数据,以及缺乏定制的OVMOT框架来协同处理检测和关联。我们通过构建C-TAO来解决数据瓶颈,C-TAO是第一个用于OVMOT的连续标注训练集,它比原始TAO增加了26倍的标注密度,并捕获了平滑的运动动态和中间对象状态。对于框架瓶颈,我们提出了COVTrack++,这是一个协同框架,通过三个模块实现检测和关联之间的双向互惠机制:(1)多线索自适应融合(MCF)动态平衡外观、运动和语义线索,用于关联特征学习;(2)多粒度分层聚合(MGA)利用密集检测中的分层空间关系,其中可见的子节点(例如,对象部分)辅助遮挡的父对象(例如,整个身体)进行关联特征增强;(3)时间置信度传播(TCP)通过高置信度跟踪对象跨帧提升低置信度候选对象,从而恢复闪烁的检测,稳定轨迹。在TAO上的大量实验表明了最先进的性能,在验证集和测试集上,新的TETA分别达到35.4%和30.5%,与之前的方法相比,新的AssocA提高了4.8%,新的LocA提高了5.8%,并在BDD100K上显示出强大的零样本泛化能力。代码和数据集将公开提供。
🔬 方法详解
问题定义:现有的开放词汇多目标跟踪(OVMOT)方法面临两个主要问题。一是缺乏大规模的连续标注视频数据,这限制了模型学习对象在视频中的平滑运动和状态变化。二是缺乏一个能够有效协同处理检测和关联的框架,导致检测和关联模块之间信息传递不足,影响跟踪性能。
核心思路:COVTrack++的核心思路是通过构建大规模连续标注数据集C-TAO来解决数据瓶颈,并通过一个协同框架来解决框架瓶颈。该框架通过多线索融合、分层聚合和时间置信度传播,实现检测和关联之间的双向互惠,从而提升OVMOT的性能。
技术框架:COVTrack++的整体框架包含三个主要模块:(1) 多线索自适应融合(MCF):动态平衡外观、运动和语义线索,用于关联特征学习。(2) 多粒度分层聚合(MGA):利用密集检测中的分层空间关系,辅助遮挡对象的关联特征增强。(3) 时间置信度传播(TCP):通过高置信度跟踪对象跨帧提升低置信度候选对象,从而恢复闪烁的检测,稳定轨迹。这三个模块协同工作,实现检测和关联之间的双向互惠。
关键创新:COVTrack++的关键创新在于其协同框架,该框架通过多线索融合、分层聚合和时间置信度传播,实现了检测和关联之间的双向互惠。与现有方法相比,COVTrack++能够更有效地利用视频中的信息,从而提升OVMOT的性能。此外,C-TAO数据集的构建也为OVMOT的研究提供了重要的数据支持。
关键设计:在多线索自适应融合(MCF)模块中,使用了注意力机制来动态平衡不同线索的权重。在多粒度分层聚合(MGA)模块中,使用了图神经网络来建模对象之间的分层关系。在时间置信度传播(TCP)模块中,使用了卡尔曼滤波器来预测对象的位置,并使用置信度阈值来过滤低置信度的检测结果。
🖼️ 关键图片
📊 实验亮点
COVTrack++在TAO数据集上取得了显著的性能提升,在验证集和测试集上,新的TETA分别达到35.4%和30.5%,与之前的方法相比,新的AssocA提高了4.8%,新的LocA提高了5.8%。此外,COVTrack++在BDD100K数据集上展现出强大的零样本泛化能力,表明其具有良好的鲁棒性和泛化性能。
🎯 应用场景
COVTrack++在智能监控、自动驾驶、机器人导航等领域具有广泛的应用前景。它可以用于跟踪视频中任意类别的对象,例如行人、车辆、动物等,从而实现更智能化的视频分析和理解。该研究成果有助于提升计算机视觉系统在复杂环境下的感知能力。
📄 摘要(原文)
Multi-Object Tracking (MOT) has traditionally focused on a few specific categories, restricting its applicability to real-world scenarios involving diverse objects. Open-Vocabulary Multi-Object Tracking (OVMOT) addresses this by enabling tracking of arbitrary categories, including novel objects unseen during training. However, current progress is constrained by two challenges: the lack of continuously annotated video data for training, and the lack of a customized OVMOT framework to synergistically handle detection and association. We address the data bottleneck by constructing C-TAO, the first continuously annotated training set for OVMOT, which increases annotation density by 26x over the original TAO and captures smooth motion dynamics and intermediate object states. For the framework bottleneck, we propose COVTrack++, a synergistic framework that achieves a bidirectional reciprocal mechanism between detection and association through three modules: (1) Multi-Cue Adaptive Fusion (MCF) dynamically balances appearance, motion, and semantic cues for association feature learning; (2) Multi-Granularity Hierarchical Aggregation (MGA) exploits hierarchical spatial relationships in dense detections, where visible child nodes (e.g., object parts) assist occluded parent objects (e.g., whole body) for association feature enhancement; (3) Temporal Confidence Propagation (TCP) recovers flickering detections through high-confidence tracked objects boosting low-confidence candidates across frames, stabilizing trajectories. Extensive experiments on TAO demonstrate state-of-the-art performance, with novel TETA reaching 35.4% and 30.5% on validation and test sets, improving novel AssocA by 4.8% and novel LocA by 5.8% over previous methods, and show strong zero-shot generalization on BDD100K. The code and dataset will be publicly available.