FARTrack: Fast Autoregressive Visual Tracking with High Performance
作者: Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei
分类: cs.CV
发布日期: 2026-02-03
💡 一句话要点
FARTrack:一种快速自回归视觉跟踪框架,兼顾高性能与高效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉跟踪 自回归模型 模型压缩 知识蒸馏 稀疏化 实时跟踪 Transformer
📋 核心要点
- 高性能跟踪器速度慢,难以在资源受限设备上部署,限制了其应用范围。
- FARTrack利用自回归模型建模轨迹序列的时间依赖性,并结合蒸馏和稀疏化策略,实现高效跟踪。
- 实验表明,FARTrack在保证跟踪性能的同时,显著提升了速度,在GPU和CPU上均达到实时性。
📝 摘要(中文)
本文提出了一种快速自回归视觉跟踪框架FARTrack,旨在解决高性能跟踪器速度慢、难以在资源受限设备上部署的问题。FARTrack利用自回归模型对轨迹序列的时间依赖性进行建模,从而在保证性能的同时提高效率。该框架包含任务特定的自蒸馏和帧间自回归稀疏化两个关键模块。任务特定的自蒸馏通过逐层蒸馏任务相关的token来实现模型压缩,避免了手动选择次优的师生层对。帧间自回归稀疏化则顺序地压缩多个模板,避免了额外的运行时开销,同时学习到时间全局最优的稀疏化策略。实验表明,FARTrack在GOT-10k数据集上实现了70.6%的AO,并达到了实时性要求。此外,最快的模型在GPU上达到了343 FPS,在CPU上达到了121 FPS。
🔬 方法详解
问题定义:视觉跟踪领域需要在跟踪精度和推理速度之间进行权衡。现有的高性能跟踪器通常计算复杂度高,推理速度慢,难以部署在资源受限的设备上,例如移动设备或嵌入式系统。因此,如何在保证跟踪精度的前提下,提高跟踪速度是一个重要的研究问题。
核心思路:FARTrack的核心思路是利用自回归模型来建模目标在视频序列中的运动轨迹。自回归模型能够有效地利用时间上的相关性,从而减少冗余计算,提高推理速度。此外,通过任务特定的自蒸馏和帧间自回归稀疏化,进一步压缩模型,减少计算量。
技术框架:FARTrack的整体框架包含以下几个主要模块:1) 特征提取模块:用于提取目标和搜索区域的视觉特征。2) 自回归预测模块:利用自回归模型预测下一帧的目标位置。3) 任务特定的自蒸馏模块:通过逐层蒸馏,将复杂模型中的知识迁移到更小的模型中。4) 帧间自回归稀疏化模块:通过学习一个时间全局最优的稀疏化策略,减少冗余的token。
关键创新:FARTrack的关键创新在于以下两点:1) 任务特定的自蒸馏:传统的蒸馏方法通常需要手动选择师生层对,而FARTrack通过逐层蒸馏,自动选择最优的层对,提高了蒸馏效率。2) 帧间自回归稀疏化:通过学习一个时间全局最优的稀疏化策略,减少了冗余的token,提高了推理速度,同时避免了额外的运行时开销。
关键设计:在任务特定的自蒸馏中,使用了KL散度作为蒸馏损失函数,并对不同层的损失进行加权。在帧间自回归稀疏化中,使用了一个可学习的门控机制来控制token的保留和丢弃。自回归模型使用了Transformer结构,并对位置编码进行了优化。
🖼️ 关键图片
📊 实验亮点
FARTrack在GOT-10k数据集上取得了显著的成果,AO达到了70.6%,并实现了实时跟踪。更重要的是,该方法在速度上有了显著提升,最快的模型在GPU上达到了343 FPS,在CPU上达到了121 FPS。这表明FARTrack在保证跟踪精度的同时,显著提高了跟踪速度,使其更适用于资源受限的设备。
🎯 应用场景
FARTrack具有广泛的应用前景,例如:1) 智能监控:在监控视频中实时跟踪目标,例如行人、车辆等。2) 自动驾驶:辅助自动驾驶系统进行目标检测和跟踪,提高驾驶安全性。3) 机器人导航:帮助机器人在复杂环境中进行自主导航。4) 视频分析:对视频内容进行分析和理解,例如行为识别、事件检测等。该研究的实际价值在于提供了一种高效的视觉跟踪解决方案,未来有望推动视觉跟踪技术在更多领域的应用。
📄 摘要(原文)
Inference speed and tracking performance are two critical evaluation metrics in the field of visual tracking. However, high-performance trackers often suffer from slow processing speeds, making them impractical for deployment on resource-constrained devices. To alleviate this issue, we propose FARTrack, a Fast Auto-Regressive Tracking framework. Since autoregression emphasizes the temporal nature of the trajectory sequence, it can maintain high performance while achieving efficient execution across various devices. FARTrack introduces Task-Specific Self-Distillation and Inter-frame Autoregressive Sparsification, designed from the perspectives of shallow-yet-accurate distillation and redundant-to-essential token optimization, respectively. Task-Specific Self-Distillation achieves model compression by distilling task-specific tokens layer by layer, enhancing the model's inference speed while avoiding suboptimal manual teacher-student layer pairs assignments. Meanwhile, Inter-frame Autoregressive Sparsification sequentially condenses multiple templates, avoiding additional runtime overhead while learning a temporally-global optimal sparsification strategy. FARTrack demonstrates outstanding speed and competitive performance. It delivers an AO of 70.6% on GOT-10k in real-time. Beyond, our fastest model achieves a speed of 343 FPS on the GPU and 121 FPS on the CPU.