CoWTracker: Tracking by Warping instead of Correlation

📄 arXiv: 2602.04877v1 📥 PDF

作者: Zihang Lai, Eldar Insafutdinov, Edgar Sucar, Andrea Vedaldi

分类: cs.CV

发布日期: 2026-02-04

备注: Project website: cowtracker.github.io


💡 一句话要点

CoWTracker:提出一种基于形变的密集点跟踪方法,避免了代价体计算。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 密集点跟踪 光流估计 图像形变 Transformer 视频分析

📋 核心要点

  1. 现有密集点跟踪方法依赖代价体,计算复杂度高,限制了其在更高分辨率图像上的应用。
  2. CoWTracker通过迭代形变目标帧特征到查询帧,避免了代价体的计算,降低了计算复杂度。
  3. 实验表明,CoWTracker在多个密集点跟踪和光流基准测试中取得了领先的性能。

📝 摘要(中文)

密集点跟踪是计算机视觉中的一个基本问题,其应用范围涵盖视频分析到机器人操作。目前最先进的跟踪器通常依赖于代价体来匹配跨帧的特征,但这种方法在空间分辨率上会产生二次复杂度,从而限制了可扩展性和效率。在本文中,我们提出了CoWTracker,一种新颖的密集点跟踪器,它避免使用代价体,转而采用形变。受到光流领域最新进展的启发,我们的方法通过基于当前估计将目标帧的特征形变到查询帧来迭代地细化跟踪估计。结合执行所有轨迹上的联合时空推理的Transformer架构,我们的设计在不计算特征相关性的情况下建立长程对应关系。我们的模型简单,并在标准密集点跟踪基准(包括TAP-Vid-DAVIS、TAP-Vid-Kinetics和Robo-TAP)上实现了最先进的性能。值得注意的是,该模型在光流方面也表现出色,有时在Sintel、KITTI和Spring基准上优于专门的方法。这些结果表明,基于形变的架构可以统一密集点跟踪和光流估计。

🔬 方法详解

问题定义:论文旨在解决密集点跟踪问题,即在视频序列中跟踪图像中大量点的运动轨迹。现有方法,特别是基于代价体的方法,计算复杂度高,难以扩展到高分辨率图像或大规模场景。代价体方法需要计算所有可能的像素对之间的相似度,导致计算量随像素数量呈平方增长。

核心思路:CoWTracker的核心思路是利用图像形变(warping)来避免显式计算代价体。它通过迭代地将目标帧的特征根据当前估计的运动轨迹形变到查询帧,从而实现特征匹配。这种方法借鉴了光流估计领域的思想,将跟踪问题转化为一个迭代优化问题。

技术框架:CoWTracker的整体架构包含以下几个主要模块:1) 特征提取器:用于提取查询帧和目标帧的特征。2) 形变模块:根据当前估计的运动轨迹,将目标帧的特征形变到查询帧。3) Transformer模块:用于在所有轨迹上进行联合时空推理,建立长程对应关系。4) 运动估计模块:基于形变后的特征和查询帧的特征,估计新的运动轨迹。整个流程是一个迭代的过程,不断优化运动轨迹的估计。

关键创新:CoWTracker最重要的技术创新点在于使用形变操作代替代价体计算。这种方法显著降低了计算复杂度,使得模型能够处理更高分辨率的图像和更长的视频序列。此外,使用Transformer进行时空推理,能够更好地捕捉长程依赖关系,提高跟踪的准确性。

关键设计:CoWTracker的关键设计包括:1) 使用ResNet等卷积神经网络作为特征提取器。2) 使用双线性插值进行特征形变。3) 使用Transformer编码器-解码器结构进行时空推理。4) 使用L1损失或Charbonnier损失作为运动估计的损失函数。迭代次数是一个重要的超参数,需要根据具体任务进行调整。

📊 实验亮点

CoWTracker在TAP-Vid-DAVIS、TAP-Vid-Kinetics和Robo-TAP等密集点跟踪基准测试中取得了最先进的性能。此外,该模型在光流估计方面也表现出色,有时在Sintel、KITTI和Spring基准上优于专门的光流估计方法。这些结果表明,基于形变的架构可以有效地统一密集点跟踪和光流估计。

🎯 应用场景

CoWTracker具有广泛的应用前景,包括视频监控、自动驾驶、机器人导航、增强现实等领域。它可以用于跟踪视频中的物体、估计相机的运动、重建三维场景等。该研究的实际价值在于提高了密集点跟踪的效率和准确性,为相关应用提供了更可靠的技术支持。未来,该方法可以进一步扩展到处理更复杂的场景,例如光照变化、遮挡、形变等。

📄 摘要(原文)

Dense point tracking is a fundamental problem in computer vision, with applications ranging from video analysis to robotic manipulation. State-of-the-art trackers typically rely on cost volumes to match features across frames, but this approach incurs quadratic complexity in spatial resolution, limiting scalability and efficiency. In this paper, we propose \method, a novel dense point tracker that eschews cost volumes in favor of warping. Inspired by recent advances in optical flow, our approach iteratively refines track estimates by warping features from the target frame to the query frame based on the current estimate. Combined with a transformer architecture that performs joint spatiotemporal reasoning across all tracks, our design establishes long-range correspondences without computing feature correlations. Our model is simple and achieves state-of-the-art performance on standard dense point tracking benchmarks, including TAP-Vid-DAVIS, TAP-Vid-Kinetics, and Robo-TAP. Remarkably, the model also excels at optical flow, sometimes outperforming specialized methods on the Sintel, KITTI, and Spring benchmarks. These results suggest that warping-based architectures can unify dense point tracking and optical flow estimation.