FARTrack: Fast Autoregressive Visual Tracking with High Performance

作者: Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei

分类: cs.CV

发布日期: 2026-02-03

💡 一句话要点

FARTrack：一种快速自回归视觉跟踪框架，兼顾高性能与高效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉跟踪 自回归模型 模型压缩 知识蒸馏 稀疏化 实时跟踪 Transformer

📋 核心要点

高性能跟踪器速度慢，难以在资源受限设备上部署，限制了其应用范围。
FARTrack利用自回归模型建模轨迹序列的时间依赖性，并结合蒸馏和稀疏化策略，实现高效跟踪。
实验表明，FARTrack在保证跟踪性能的同时，显著提升了速度，在GPU和CPU上均达到实时性。

📝 摘要（中文）

本文提出了一种快速自回归视觉跟踪框架FARTrack，旨在解决高性能跟踪器速度慢、难以在资源受限设备上部署的问题。FARTrack利用自回归模型对轨迹序列的时间依赖性进行建模，从而在保证性能的同时提高效率。该框架包含任务特定的自蒸馏和帧间自回归稀疏化两个关键模块。任务特定的自蒸馏通过逐层蒸馏任务相关的token来实现模型压缩，避免了手动选择次优的师生层对。帧间自回归稀疏化则顺序地压缩多个模板，避免了额外的运行时开销，同时学习到时间全局最优的稀疏化策略。实验表明，FARTrack在GOT-10k数据集上实现了70.6%的AO，并达到了实时性要求。此外，最快的模型在GPU上达到了343 FPS，在CPU上达到了121 FPS。

🔬 方法详解

问题定义：视觉跟踪领域需要在跟踪精度和推理速度之间进行权衡。现有的高性能跟踪器通常计算复杂度高，推理速度慢，难以部署在资源受限的设备上，例如移动设备或嵌入式系统。因此，如何在保证跟踪精度的前提下，提高跟踪速度是一个重要的研究问题。

核心思路：FARTrack的核心思路是利用自回归模型来建模目标在视频序列中的运动轨迹。自回归模型能够有效地利用时间上的相关性，从而减少冗余计算，提高推理速度。此外，通过任务特定的自蒸馏和帧间自回归稀疏化，进一步压缩模型，减少计算量。

技术框架：FARTrack的整体框架包含以下几个主要模块：1) 特征提取模块：用于提取目标和搜索区域的视觉特征。2) 自回归预测模块：利用自回归模型预测下一帧的目标位置。3) 任务特定的自蒸馏模块：通过逐层蒸馏，将复杂模型中的知识迁移到更小的模型中。4) 帧间自回归稀疏化模块：通过学习一个时间全局最优的稀疏化策略，减少冗余的token。

关键创新：FARTrack的关键创新在于以下两点：1) 任务特定的自蒸馏：传统的蒸馏方法通常需要手动选择师生层对，而FARTrack通过逐层蒸馏，自动选择最优的层对，提高了蒸馏效率。2) 帧间自回归稀疏化：通过学习一个时间全局最优的稀疏化策略，减少了冗余的token，提高了推理速度，同时避免了额外的运行时开销。

关键设计：在任务特定的自蒸馏中，使用了KL散度作为蒸馏损失函数，并对不同层的损失进行加权。在帧间自回归稀疏化中，使用了一个可学习的门控机制来控制token的保留和丢弃。自回归模型使用了Transformer结构，并对位置编码进行了优化。

🖼️ 关键图片

📊 实验亮点

FARTrack在GOT-10k数据集上取得了显著的成果，AO达到了70.6%，并实现了实时跟踪。更重要的是，该方法在速度上有了显著提升，最快的模型在GPU上达到了343 FPS，在CPU上达到了121 FPS。这表明FARTrack在保证跟踪精度的同时，显著提高了跟踪速度，使其更适用于资源受限的设备。

🎯 应用场景

FARTrack具有广泛的应用前景，例如：1) 智能监控：在监控视频中实时跟踪目标，例如行人、车辆等。2) 自动驾驶：辅助自动驾驶系统进行目标检测和跟踪，提高驾驶安全性。3) 机器人导航：帮助机器人在复杂环境中进行自主导航。4) 视频分析：对视频内容进行分析和理解，例如行为识别、事件检测等。该研究的实际价值在于提供了一种高效的视觉跟踪解决方案，未来有望推动视觉跟踪技术在更多领域的应用。

📄 摘要（原文）

Inference speed and tracking performance are two critical evaluation metrics in the field of visual tracking. However, high-performance trackers often suffer from slow processing speeds, making them impractical for deployment on resource-constrained devices. To alleviate this issue, we propose FARTrack, a Fast Auto-Regressive Tracking framework. Since autoregression emphasizes the temporal nature of the trajectory sequence, it can maintain high performance while achieving efficient execution across various devices. FARTrack introduces Task-Specific Self-Distillation and Inter-frame Autoregressive Sparsification, designed from the perspectives of shallow-yet-accurate distillation and redundant-to-essential token optimization, respectively. Task-Specific Self-Distillation achieves model compression by distilling task-specific tokens layer by layer, enhancing the model's inference speed while avoiding suboptimal manual teacher-student layer pairs assignments. Meanwhile, Inter-frame Autoregressive Sparsification sequentially condenses multiple templates, avoiding additional runtime overhead while learning a temporally-global optimal sparsification strategy. FARTrack demonstrates outstanding speed and competitive performance. It delivers an AO of 70.6% on GOT-10k in real-time. Beyond, our fastest model achieves a speed of 343 FPS on the GPU and 121 FPS on the CPU.

FARTrack: Fast Autoregressive Visual Tracking with High Performance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理