Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking

📄 arXiv: 2507.21606v1 📥 PDF

作者: Yaozong Zheng, Bineng Zhong, Qihua Liang, Ning Li, Shuxiang Song

分类: cs.CV

发布日期: 2025-07-29

备注: Accepted by AAAI2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出SSTrack自监督跟踪框架,通过解耦时空一致性学习提升跟踪性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 视觉跟踪 时空一致性 实例对比学习 表示学习

📋 核心要点

  1. 现有视觉跟踪方法依赖大量人工标注数据,成本高昂且数据集规模受限。
  2. SSTrack通过解耦时空一致性学习,并引入实例对比损失,实现无需人工标注的自监督跟踪。
  3. 实验表明,SSTrack在多个数据集上显著超越现有自监督方法,性能提升显著。

📝 摘要(中文)

本文提出了一种名为SSTrack的自监督跟踪框架,旨在消除对人工标注框的需求。该框架采用解耦的时空一致性训练方法,通过全局空间定位和局部时间关联来学习跨时间戳的丰富目标信息,从而模拟真实场景中实例的外观和运动变化。此外,设计了一种实例对比损失,从多视角学习实例级别的对应关系,提供无需额外标签的鲁棒实例监督。这种新的设计范式使SSTrack能够以自监督方式有效地学习通用跟踪表示,同时减少对大量框标注的依赖。在九个基准数据集上的大量实验表明,SSTrack超越了最先进的自监督跟踪方法,在GOT10K、LaSOT和TrackingNet数据集上的AUC (AO) 分数分别提高了25.3%、20.4%和14.8%以上。

🔬 方法详解

问题定义:现有视觉跟踪方法严重依赖于大量人工标注的 bounding box 数据集,这限制了数据集的规模和多样性,同时也增加了训练成本。如何设计一种无需人工标注的自监督跟踪框架是本文要解决的核心问题。

核心思路:本文的核心思路是利用视频序列中目标自身固有的时空一致性信息,设计自监督学习策略。通过解耦空间和时间维度的一致性学习,让模型能够学习到目标在不同时间戳下的外观和运动变化,从而提升跟踪的鲁棒性。此外,引入实例对比学习,从多视角学习实例级别的对应关系,提供更强的监督信号。

技术框架:SSTrack 框架主要包含两个核心模块:解耦时空一致性学习模块和实例对比学习模块。解耦时空一致性学习模块通过全局空间定位和局部时间关联来学习目标在不同时间戳下的表示。实例对比学习模块则通过对比不同视角下的目标实例,学习实例级别的对应关系。整个框架以自监督的方式进行训练,无需人工标注的 bounding box。

关键创新:SSTrack 的关键创新在于解耦时空一致性学习和实例对比学习的结合。传统的自监督跟踪方法通常只关注空间或时间维度的一致性,而 SSTrack 同时考虑了这两个维度,从而能够更全面地学习目标的表示。此外,实例对比学习的引入,为模型提供了更强的监督信号,提升了跟踪的准确性。与现有方法的本质区别在于,SSTrack 能够有效地利用视频序列中固有的时空一致性信息,学习到更鲁棒的目标表示。

关键设计:在解耦时空一致性学习中,采用了全局空间定位和局部时间关联两种策略。全局空间定位旨在学习目标在整个图像中的位置信息,而局部时间关联则旨在学习目标在相邻帧之间的运动信息。在实例对比学习中,采用了 InfoNCE 损失函数,鼓励模型学习到不同视角下相同实例的相似表示,同时抑制不同实例之间的相似性。具体的网络结构和参数设置在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SSTrack 在九个基准数据集上进行了广泛的实验,结果表明,SSTrack 显著超越了现有的自监督跟踪方法。具体来说,在 GOT10K 数据集上,SSTrack 的 AUC 分数提高了 25.3%;在 LaSOT 数据集上,AUC 分数提高了 20.4%;在 TrackingNet 数据集上,AUC 分数提高了 14.8%。这些结果充分证明了 SSTrack 的有效性和优越性。

🎯 应用场景

SSTrack 的潜在应用领域包括智能监控、自动驾驶、机器人导航等。通过减少对人工标注数据的依赖,SSTrack 可以降低跟踪系统的开发成本,并提高其在实际场景中的适应性。未来,该方法可以进一步扩展到其他视觉任务中,例如视频目标分割、行为识别等,具有广阔的应用前景。

📄 摘要(原文)

The success of visual tracking has been largely driven by datasets with manual box annotations. However, these box annotations require tremendous human effort, limiting the scale and diversity of existing tracking datasets. In this work, we present a novel Self-Supervised Tracking framework named \textbf{\tracker}, designed to eliminate the need of box annotations. Specifically, a decoupled spatio-temporal consistency training framework is proposed to learn rich target information across timestamps through global spatial localization and local temporal association. This allows for the simulation of appearance and motion variations of instances in real-world scenarios. Furthermore, an instance contrastive loss is designed to learn instance-level correspondences from a multi-view perspective, offering robust instance supervision without additional labels. This new design paradigm enables {\tracker} to effectively learn generic tracking representations in a self-supervised manner, while reducing reliance on extensive box annotations. Extensive experiments on nine benchmark datasets demonstrate that {\tracker} surpasses \textit{SOTA} self-supervised tracking methods, achieving an improvement of more than 25.3\%, 20.4\%, and 14.8\% in AUC (AO) score on the GOT10K, LaSOT, TrackingNet datasets, respectively. Code: https://github.com/GXNU-ZhongLab/SSTrack.