UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
作者: Hao Wu, Xudong Wang, Jialiang Zhang, Junlong Tong, Xinghao Chen, Junyan Lin, Yunpu Ma, Xiaoyu Shen
分类: cs.CV, cs.CL
发布日期: 2026-02-27
备注: Accepted to CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
UTPTrack:提出一种简单统一的Token剪枝框架,用于提升视觉跟踪效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉跟踪 Token剪枝 Transformer 注意力机制 多模态学习
📋 核心要点
- 现有基于Transformer的视觉跟踪器计算量大,难以实时部署,而现有的Token剪枝方法未能充分考虑组件间的依赖关系。
- UTPTrack提出了一种统一的Token剪枝框架,通过注意力引导和Token类型感知策略,联合压缩搜索区域、动态模板和静态模板。
- 实验结果表明,UTPTrack在精度-效率权衡方面达到了新的SOTA,显著降低了计算量,同时保持甚至略微提升了跟踪性能。
📝 摘要(中文)
基于Transformer的单流跟踪器在视觉目标跟踪中表现出色,但计算开销巨大,阻碍了实时部署。Token剪枝提供了一种提高效率的途径,但现有方法是分散的,通常孤立地剪枝搜索区域、动态模板和静态模板,忽略了关键的组件间依赖关系,导致次优剪枝和精度下降。为了解决这个问题,我们提出了UTPTrack,一个简单而统一的Token剪枝框架,首次联合压缩所有三个组件。UTPTrack采用了一种注意力引导的、Token类型感知的策略来整体建模冗余,这种设计无缝地支持单个模型中的跨多模态和语言引导任务的统一跟踪。在10个基准上的广泛评估表明,UTPTrack在基于剪枝的跟踪器的精度-效率权衡方面实现了新的最先进水平,在基于RGB的跟踪中剪枝了65.4%的视觉Token,在统一跟踪中剪枝了67.5%的视觉Token,同时分别保留了99.7%和100.5%的基线性能。这种在RGB和多模态场景下的强大性能突显了其作为未来高效视觉跟踪研究的强大基础的潜力。
🔬 方法详解
问题定义:论文旨在解决现有基于Transformer的视觉跟踪器计算量大,难以实时部署的问题。现有的Token剪枝方法通常孤立地处理搜索区域、动态模板和静态模板,忽略了它们之间的依赖关系,导致剪枝效果不佳,精度下降。
核心思路:UTPTrack的核心思路是联合考虑搜索区域、动态模板和静态模板的Token冗余,通过统一的Token剪枝框架,实现更有效的剪枝。利用注意力机制引导,并根据Token类型进行区分,从而更准确地识别和去除冗余Token。
技术框架:UTPTrack的整体框架包括以下几个主要模块:1) 特征提取模块:提取搜索区域、动态模板和静态模板的视觉特征。2) 注意力引导的Token剪枝模块:利用注意力机制计算Token的重要性,并根据Token类型进行加权,从而确定需要剪枝的Token。3) Transformer编码器:对剪枝后的Token进行编码,提取目标对象的特征表示。4) 预测模块:根据目标对象的特征表示,预测目标对象的位置和大小。
关键创新:UTPTrack的关键创新在于:1) 提出了统一的Token剪枝框架,首次联合压缩搜索区域、动态模板和静态模板。2) 采用了注意力引导的Token类型感知策略,更准确地识别和去除冗余Token。3) 该框架可以无缝支持RGB和多模态场景下的统一跟踪。
关键设计:UTPTrack的关键设计包括:1) 使用多头注意力机制计算Token的重要性。2) 根据Token类型(搜索区域、动态模板、静态模板)对Token的重要性进行加权。3) 使用可学习的阈值来确定需要剪枝的Token数量。4) 损失函数包括跟踪损失和剪枝损失,以平衡跟踪精度和计算效率。
🖼️ 关键图片
📊 实验亮点
UTPTrack在10个基准测试中取得了显著的成果。在RGB跟踪中,UTPTrack剪枝了65.4%的视觉Token,同时保留了99.7%的基线性能。在统一跟踪中,UTPTrack剪枝了67.5%的视觉Token,同时保留了100.5%的基线性能。这些结果表明,UTPTrack在精度-效率权衡方面达到了新的SOTA。
🎯 应用场景
UTPTrack具有广泛的应用前景,可用于智能监控、自动驾驶、机器人导航等领域。通过降低视觉跟踪的计算成本,UTPTrack可以使这些应用在资源受限的设备上运行,并提高实时性。此外,UTPTrack的统一框架也为多模态视觉跟踪提供了新的可能性。
📄 摘要(原文)
One-stream Transformer-based trackers achieve advanced performance in visual object tracking but suffer from significant computational overhead that hinders real-time deployment. While token pruning offers a path to efficiency, existing methods are fragmented. They typically prune the search region, dynamic template, and static template in isolation, overlooking critical inter-component dependencies, which yields suboptimal pruning and degraded accuracy. To address this, we introduce UTPTrack, a simple and Unified Token Pruning framework that, for the first time, jointly compresses all three components. UTPTrack employs an attention-guided, token type-aware strategy to holistically model redundancy, a design that seamlessly supports unified tracking across multimodal and language-guided tasks within a single model. Extensive evaluations on 10 benchmarks demonstrate that UTPTrack achieves a new state-of-the-art in the accuracy-efficiency trade-off for pruning-based trackers, pruning 65.4% of vision tokens in RGB-based tracking and 67.5% in unified tracking while preserving 99.7% and 100.5% of baseline performance, respectively. This strong performance across both RGB and multimodal scenarios underlines its potential as a robust foundation for future research in efficient visual tracking. Code will be released at https://github.com/EIT-NLP/UTPTrack.