RELO: Reinforcement Learning to Localize for Visual Object Tracking
作者: Xin Chen, Chuanyu Sun, Jiao Xu, Houwen Peng, Dong Wang, Huchuan Lu, Kede Ma
分类: cs.CV, cs.AI
发布日期: 2026-05-08
备注: ICML 2026 paper
💡 一句话要点
提出RELO强化学习定位框架,通过奖励驱动替代手工先验以优化视觉目标跟踪
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉目标跟踪 强化学习 马尔可夫决策过程 奖励驱动学习 时间Token传播 空间定位
📋 核心要点
- 现有跟踪器依赖手工空间先验,其与IoU、AUC等评估指标的对齐性较差,限制了定位精度。
- 提出RELO框架,将定位建模为马尔可夫决策过程,通过强化学习直接优化奖励函数以学习定位策略。
- 引入层对齐时间Token传播机制,在保持低计算开销的同时,显著增强了视频帧间的语义一致性。
📝 摘要(中文)
传统视觉目标跟踪器通常依赖手工设计的空间先验(如热图)来定位目标。然而,这些先验仅提供代理监督,与跟踪优化目标及评估指标(如IoU和AUC)的对齐度较差。本文提出了RELO,一种用于视觉目标跟踪的强化学习定位方法,将目标定位建模为马尔可夫决策过程。RELO利用强化学习在空间位置上学习定位策略,其奖励函数结合了帧级IoU和序列级AUC。此外,本文引入了层对齐的时间Token传播机制,在几乎不增加计算开销的前提下提升了帧间的语义一致性。在多个基准测试中,RELO表现优异,在无需模板更新的情况下于LaSOText数据集上达到57.5%的AUC,证明了奖励驱动的定位是先验驱动定位的有效替代方案。
🔬 方法详解
问题定义:传统跟踪器依赖手工设计的空间先验(如高斯热图)进行定位,这种代理监督与实际的跟踪评估指标(如IoU和AUC)存在显著偏差,导致模型难以直接优化最终的跟踪性能。
核心思路:将目标定位过程建模为马尔可夫决策过程(MDP),通过强化学习(RL)直接学习定位策略。通过将IoU和AUC作为奖励信号,使模型能够直接针对评估指标进行优化,从而摆脱对固定空间先验的依赖。
技术框架:RELO框架由定位策略网络和时间Token传播模块组成。策略网络基于当前帧特征输出定位决策,时间Token传播模块则通过层对齐机制,在不同帧之间传递语义信息,确保跟踪过程的稳定性。
关键创新:核心创新在于引入了奖励驱动的定位机制,将定位任务从静态的回归/分类问题转化为动态的决策问题。此外,层对齐的时间Token传播机制有效解决了长视频序列中的语义漂移问题。
关键设计:奖励函数设计是该方法的核心,它综合了单帧的IoU得分与整个序列的AUC指标,引导策略网络学习更鲁棒的定位行为。同时,该方法在不进行模板更新的情况下,依然能保持极高的跟踪精度。
🖼️ 关键图片
📊 实验亮点
RELO在多个主流跟踪基准测试中表现出色,特别是在LaSOText数据集上,无需任何模板更新即可达到57.5%的AUC。实验结果表明,相比于传统的先验驱动方法,奖励驱动的定位策略能更有效地优化跟踪性能,显著提升了模型在复杂环境下的鲁棒性与定位准确度。
🎯 应用场景
该研究主要应用于视觉目标跟踪领域,特别适用于无人机航拍、自动驾驶车辆感知及安防监控等场景。由于其无需模板更新且具备极高的定位精度,该方法在处理长视频序列、目标遮挡及快速运动等复杂挑战时具有显著的实际应用价值和部署潜力。
📄 摘要(原文)
Conventional visual object trackers localize targets using handcrafted spatial priors, often in the form of heatmaps. Such priors provide only surrogate supervision and are poorly aligned with tracking optimization and evaluation metrics, such as intersection over union (IoU) and area under the success curve (AUC). Here, we introduce RELO, a REinforcement-learning-to-LOcalize method for visual object tracking that formulates target localization as a Markov decision process. Specifically, RELO replaces handcrafted spatial priors with a localization policy learned over spatial positions via reinforcement learning, with rewards combining frame-level IoU and sequence-level AUC. We additionally introduce layer-aligned temporal token propagation to improve semantic consistency across frames, with negligible computational overhead. Across multiple benchmarks, RELO achieves superior results, attaining 57.5% AUC on LaSOText without template updates. This confirms that reward-driven localization provides an effective alternative to prior-driven localization for visual object tracking.