Breaking Shallow Limits: Task-Driven Pixel Fusion for Gap-free RGBT Tracking
作者: Andong Lu, Yuanzhi Guo, Wanyu Wang, Chenglong Li, Jin Tang, Bin Luo
分类: cs.CV
发布日期: 2025-03-14
备注: In peer review
💡 一句话要点
提出TPF以解决RGBT跟踪中的模态间隙问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: RGBT跟踪 像素级融合 任务驱动学习 多模态融合 动态模板更新
📋 核心要点
- 现有RGBT跟踪方法忽视了融合位置对模态间隙的影响,导致跟踪效果不佳。
- 论文提出了TPF网络,通过任务驱动的渐进学习框架实现像素级融合,克服了浅层网络的局限性。
- 实验结果显示,TPF在四个公共数据集上显著优于现有大多数先进跟踪器,提升效果明显。
📝 摘要(中文)
当前的RGBT跟踪方法往往忽视了融合位置对减小模态间隙的影响,这对有效跟踪至关重要。我们的分析表明,较浅的融合可以减小分布间隙。然而,浅层网络的有限判别能力难以区分任务相关信息与噪声,限制了像素级融合的潜力。为了解决这一问题,我们提出了一种新颖的任务驱动像素级融合网络TPF,通过渐进学习框架揭示了像素级融合在RGBT跟踪中的潜力。我们设计了轻量级的像素级融合适配器PFA,利用Mamba的线性复杂度确保实时低延迟的RGBT跟踪。通过自适应多专家蒸馏和解耦表示学习方案,我们增强了PFA的融合能力。此外,我们提出了最近邻动态模板更新方案,以克服初始模板与搜索帧之间的外观变化。大量实验表明,TPF在四个公共RGBT跟踪数据集上显著超越了现有大多数先进跟踪器。
🔬 方法详解
问题定义:本论文旨在解决RGBT跟踪中模态间隙的问题。现有方法在融合位置上存在不足,导致跟踪效果受限,尤其是在处理噪声和任务相关信息时。
核心思路:论文提出的TPF网络通过任务驱动的渐进学习框架,利用像素级融合的优势,克服了浅层网络的局限性,从而提高了跟踪的准确性和鲁棒性。
技术框架:TPF的整体架构包括轻量级的像素级融合适配器PFA、适应性多专家蒸馏模块和解耦表示学习方案。PFA负责实时低延迟的融合,蒸馏模块用于知识传递,而解耦表示学习则确保任务相关信息的有效融合。
关键创新:TPF的主要创新在于通过任务驱动的学习框架实现了像素级融合,显著提升了模态间隙的处理能力,与现有方法相比,能够更好地提取任务相关信息。
关键设计:在设计中,PFA采用了Mamba的线性复杂度,确保了实时性能。损失函数和网络结构经过精心设计,以支持自适应多专家蒸馏和解耦表示学习,增强了模型的融合能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TPF在四个公共RGBT跟踪数据集上显著超越了现有大多数先进跟踪器,具体提升幅度达到XX%(具体数据待补充),验证了其在处理模态间隙和外观变化方面的有效性。
🎯 应用场景
该研究的潜在应用场景包括视频监控、无人驾驶、增强现实等领域,能够有效提升多模态信息融合的性能,具有重要的实际价值和广泛的应用前景。未来,TPF可能推动更复杂场景下的实时跟踪技术的发展。
📄 摘要(原文)
Current RGBT tracking methods often overlook the impact of fusion location on mitigating modality gap, which is key factor to effective tracking. Our analysis reveals that shallower fusion yields smaller distribution gap. However, the limited discriminative power of shallow networks hard to distinguish task-relevant information from noise, limiting the potential of pixel-level fusion. To break shallow limits, we propose a novel \textbf{T}ask-driven \textbf{P}ixel-level \textbf{F}usion network, named \textbf{TPF}, which unveils the power of pixel-level fusion in RGBT tracking through a progressive learning framework. In particular, we design a lightweight Pixel-level Fusion Adapter (PFA) that exploits Mamba's linear complexity to ensure real-time, low-latency RGBT tracking. To enhance the fusion capabilities of the PFA, our task-driven progressive learning framework first utilizes adaptive multi-expert distillation to inherits fusion knowledge from state-of-the-art image fusion models, establishing robust initialization, and then employs a decoupled representation learning scheme to achieve task-relevant information fusion. Moreover, to overcome appearance variations between the initial template and search frames, we presents a nearest-neighbor dynamic template updating scheme, which selects the most reliable frame closest to the current search frame as the dynamic template. Extensive experiments demonstrate that TPF significantly outperforms existing most of advanced trackers on four public RGBT tracking datasets. The code will be released upon acceptance.