RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba

📄 arXiv: 2408.08827v2 📥 PDF

作者: Andong Lu, Wanyu Wang, Chenglong Li, Jin Tang, Bin Luo

分类: cs.CV

发布日期: 2024-08-16 (更新: 2024-12-29)

备注: Accepted by AAAI2025


💡 一句话要点

提出AINet,通过全层多模态交互和渐进式融合Mamba实现鲁棒的RGBT跟踪。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RGBT跟踪 多模态融合 全层交互 Mamba Transformer 目标跟踪 深度学习

📋 核心要点

  1. 现有RGBT跟踪方法缺乏全层特征交互,限制了多模态表示的鲁棒性。
  2. AINet通过渐进式融合Mamba,实现所有模态和层的高效特征交互,增强特征融合。
  3. 实验结果表明,AINet在多个RGBT跟踪数据集上优于现有方法,性能领先。

📝 摘要(中文)

现有的RGBT跟踪方法通常设计各种交互模型来执行每一层的跨模态融合,但由于计算负担大,无法执行所有层之间的特征交互,而这对于鲁棒的多模态表示至关重要。为了解决这个问题,本文提出了一种新颖的全层多模态交互网络,名为AINet,它在渐进式融合Mamba中执行所有模态和层的高效特征交互,以实现鲁棒的RGBT跟踪。考虑到不同层中的模态特征包含不同的线索,由于难以平衡交互能力和效率,因此在每一层中构建多模态交互始终具有挑战性。同时,考虑到RGB和热模态之间的特征差异在一定程度上反映了它们的互补信息,我们设计了一种基于差异的融合Mamba(DFM),以线性复杂度实现不同模态的增强融合。当与所有层的特征交互时,会涉及大量的token序列(本文中为3840个token),因此计算负担很大。为了解决这个问题,我们设计了一种顺序动态融合Mamba(OFM),通过动态调整Mamba中不同层的扫描顺序来执行所有层的高效特征交互。在四个公共RGBT跟踪数据集上的大量实验表明,AINet相对于现有的最先进方法取得了领先的性能。

🔬 方法详解

问题定义:现有RGBT跟踪方法主要关注单层内的跨模态融合,忽略了不同层之间的特征交互,导致无法充分利用多模态信息进行鲁棒表示。同时,在每一层构建多模态交互时,需要在交互能力和计算效率之间进行权衡。

核心思路:本文的核心思路是构建一个全层多模态交互网络AINet,通过渐进式融合Mamba结构,实现所有模态和层之间的高效特征交互。利用RGB和热模态的差异性进行增强融合,并动态调整Mamba的扫描顺序以降低计算复杂度。

技术框架:AINet包含两个主要模块:Difference-based Fusion Mamba (DFM) 和 Order-dynamic Fusion Mamba (OFM)。DFM用于增强不同模态的融合,OFM用于执行所有层的高效特征交互。整体流程是首先提取RGB和热图像的特征,然后通过DFM进行模态融合,最后通过OFM进行全层特征交互,得到最终的跟踪结果。

关键创新:AINet的关键创新在于:1) 提出了全层多模态交互网络,能够有效利用所有层的特征信息;2) 设计了Difference-based Fusion Mamba,利用模态差异进行增强融合;3) 提出了Order-dynamic Fusion Mamba,动态调整Mamba的扫描顺序,降低计算复杂度。与现有方法相比,AINet能够更充分地利用多模态信息,并具有更高的计算效率。

关键设计:DFM利用RGB和热模态的特征差异进行融合,具体实现方式未知。OFM通过动态调整Mamba中不同层的扫描顺序来降低计算复杂度,具体的扫描顺序调整策略未知。论文中使用了3840个token序列进行全层交互。损失函数和网络结构等其他技术细节在摘要中未提及,因此未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AINet在四个公共RGBT跟踪数据集上进行了广泛的实验,结果表明其性能优于现有的最先进方法。具体的性能数据和提升幅度在摘要中未给出,因此未知。但结论是AINet取得了领先的性能。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域,尤其是在光照条件不佳或存在遮挡的情况下,RGBT跟踪技术能够提供更鲁棒的目标跟踪能力。通过提升跟踪精度和效率,可以提高相关系统的可靠性和智能化水平,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Existing RGBT tracking methods often design various interaction models to perform cross-modal fusion of each layer, but can not execute the feature interactions among all layers, which plays a critical role in robust multimodal representation, due to large computational burden. To address this issue, this paper presents a novel All-layer multimodal Interaction Network, named AINet, which performs efficient and effective feature interactions of all modalities and layers in a progressive fusion Mamba, for robust RGBT tracking. Even though modality features in different layers are known to contain different cues, it is always challenging to build multimodal interactions in each layer due to struggling in balancing interaction capabilities and efficiency. Meanwhile, considering that the feature discrepancy between RGB and thermal modalities reflects their complementary information to some extent, we design a Difference-based Fusion Mamba (DFM) to achieve enhanced fusion of different modalities with linear complexity. When interacting with features from all layers, a huge number of token sequences (3840 tokens in this work) are involved and the computational burden is thus large. To handle this problem, we design an Order-dynamic Fusion Mamba (OFM) to execute efficient and effective feature interactions of all layers by dynamically adjusting the scan order of different layers in Mamba. Extensive experiments on four public RGBT tracking datasets show that AINet achieves leading performance against existing state-of-the-art methods.