Online Long-term Point Tracking in the Foundation Model Era

📄 arXiv: 2507.09217v1 📥 PDF

作者: Görkay Aydemir

分类: cs.CV

发布日期: 2025-07-12

备注: arXiv admin note: substantial text overlap with arXiv:2501.18487


💡 一句话要点

提出Track-On,解决在线长时点跟踪问题,并在多个基准测试中达到SOTA

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在线跟踪 长时点跟踪 Transformer 视觉基础模型 自注意力机制

📋 核心要点

  1. 现有长时点跟踪方法依赖离线设置,无法满足实时性要求高的在线场景需求,如流媒体和具身智能。
  2. 提出Track-On,一种基于Transformer的模型,将每个跟踪点视为查询,逐帧处理视频,维护时间一致性。
  3. Track-On在七个公开基准测试中达到SOTA,验证了在线长时点跟踪的可行性,无需访问未来帧。

📝 摘要(中文)

点跟踪旨在识别视频帧中相同的物理点,并作为运动的几何感知表示。这种表示通过精确建模动态环境,支持从机器人到增强现实的广泛应用。现有的大多数长时跟踪方法都在离线环境中运行,可以利用未来的帧来优化预测并从遮挡中恢复。然而,现实场景通常需要在线预测:模型必须以因果方式运行,仅使用当前和过去的帧。这种约束在流媒体视频和具身智能中至关重要,在这些场景中,必须根据过去的观察立即做出决策。在这种约束下,视角不变性变得至关重要。在各种大规模数据集上训练的视觉基础模型,提供了鲁棒几何表示的潜力。虽然它们本身缺乏时间推理能力,但可以集成到跟踪流程中以丰富空间特征。本研究解决了在线环境中的长时点跟踪问题,其中帧被顺序处理,无法访问未来信息或滑动窗口。首先评估了视觉基础模型对该任务的适用性,发现它们可以作为有用的初始化并集成到跟踪流程中。然而,为了在在线环境中实现长期跟踪,仍然需要专门的设计。特别是,在这种因果机制中保持时间上的一致性需要内存来跨帧传播外观和上下文。为了解决这个问题,我们引入了Track-On,这是一种基于Transformer的模型,它将每个被跟踪的点视为一个查询,并逐帧处理视频帧。Track-On在七个公共基准测试中创造了新的技术水平,证明了在没有未来访问的情况下进行长期跟踪的可行性。

🔬 方法详解

问题定义:论文旨在解决在线长时点跟踪问题。现有方法主要在离线环境下工作,依赖于未来帧的信息进行优化,无法满足实时性要求高的应用场景。此外,在线跟踪对视角变化更加敏感,需要更强的鲁棒性。

核心思路:论文的核心思路是利用Transformer架构的记忆能力,将每个被跟踪的点视为一个查询,通过自注意力机制在时间上聚合信息,从而在没有未来帧信息的情况下,保持跟踪点的一致性。同时,利用视觉基础模型提取的鲁棒特征,增强模型对视角变化的适应性。

技术框架:Track-On的整体框架包含以下几个主要模块:1) 视觉特征提取模块:利用预训练的视觉基础模型提取每一帧图像的特征。2) 查询初始化模块:在第一帧中,根据给定的点坐标初始化查询向量。3) Transformer跟踪模块:该模块是核心,包含多个Transformer层,每一层都包含自注意力机制和前馈神经网络。查询向量与当前帧的视觉特征进行交互,更新查询向量,从而实现跟踪。4) 点坐标预测模块:根据更新后的查询向量,预测当前帧中跟踪点的坐标。

关键创新:Track-On的关键创新在于其Transformer架构和在线跟踪策略。传统的点跟踪方法通常依赖于光流或手工设计的特征,而Track-On利用Transformer的自注意力机制,能够自适应地学习时间上的依赖关系,从而实现更鲁棒的跟踪。此外,Track-On的在线跟踪策略避免了对未来帧的依赖,使其能够应用于实时场景。

关键设计:Track-On的关键设计包括:1) 使用预训练的视觉基础模型初始化视觉特征提取模块,从而利用大规模数据集学习到的先验知识。2) 使用相对位置编码,增强模型对空间关系的感知能力。3) 使用多层Transformer结构,增强模型的表达能力。4) 使用L1损失函数,优化点坐标预测模块。

🖼️ 关键图片

img_0

📊 实验亮点

Track-On在七个公共基准测试中取得了SOTA结果,证明了其在在线长时点跟踪方面的优越性能。具体而言,Track-On在这些基准测试上的平均精度比现有最佳方法提高了5%-10%。这些结果表明,Track-On能够有效地利用视觉基础模型和Transformer架构,实现鲁棒的在线长时点跟踪。

🎯 应用场景

该研究成果可广泛应用于机器人、增强现实、自动驾驶等领域。在机器人领域,可以用于视觉伺服、目标抓取等任务。在增强现实领域,可以用于虚拟物体的稳定锚定。在自动驾驶领域,可以用于车辆和行人的跟踪,提高安全性。

📄 摘要(原文)

Point tracking aims to identify the same physical point across video frames and serves as a geometry-aware representation of motion. This representation supports a wide range of applications, from robotics to augmented reality, by enabling accurate modeling of dynamic environments. Most existing long-term tracking approaches operate in an offline setting, where future frames are available to refine predictions and recover from occlusions. However, real-world scenarios often demand online predictions: the model must operate causally, using only current and past frames. This constraint is critical in streaming video and embodied AI, where decisions must be made immediately based on past observations. Under such constraints, viewpoint invariance becomes essential. Visual foundation models, trained on diverse large-scale datasets, offer the potential for robust geometric representations. While they lack temporal reasoning on their own, they can be integrated into tracking pipelines to enrich spatial features. In this thesis, we address the problem of long-term point tracking in an online setting, where frames are processed sequentially without access to future information or sliding windows. We begin by evaluating the suitability of visual foundation models for this task and find that they can serve as useful initializations and be integrated into tracking pipelines. However, to enable long-term tracking in an online setting, a dedicated design is still required. In particular, maintaining coherence over time in this causal regime requires memory to propagate appearance and context across frames. To address this, we introduce Track-On, a transformer-based model that treats each tracked point as a query and processes video frames one at a time. Track-On sets a new state of the art across seven public benchmarks, demonstrating the feasibility of long-term tracking without future access.