Bi-directional Adapter for Multi-modal Tracking

📄 arXiv: 2312.10611v1 📥 PDF

作者: Bing Cao, Junliang Guo, Pengfei Zhu, Qinghua Hu

分类: cs.CV, cs.AI

发布日期: 2023-12-17

备注: Accepted by AAAI 2024. Code is available at https://github.com/SparkTempest/BAT

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于双向Adapter的多模态视觉提示跟踪模型,解决复杂环境下多模态信息动态融合问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态跟踪 双向适配器 视觉提示学习 特征融合 Transformer 目标跟踪 跨模态学习

📋 核心要点

  1. 现有方法难以动态提取多模态互补信息,导致复杂环境下多模态目标跟踪性能不佳。
  2. 提出一种基于通用双向适配器的多模态视觉提示跟踪模型,实现模态间交叉提示和特征融合。
  3. 模型仅需少量可训练参数(0.32M),即可实现优于全微调和提示学习方法的跟踪性能。

📝 摘要(中文)

近年来,计算机视觉的快速发展推动了单模态(RGB)目标跟踪的显著进步。考虑到单一成像传感器的局限性,多模态图像(RGB、红外等)被引入,以弥补在复杂环境中全天候目标跟踪的不足。然而,由于获取充足的多模态跟踪数据困难,且主导模态随开放环境变化,现有技术难以动态提取多模态互补信息,导致跟踪性能不佳。为了解决这个问题,我们提出了一种基于通用双向适配器的新型多模态视觉提示跟踪模型,该模型能够交叉提示多个模态。我们的模型由一个通用双向适配器和多个具有共享参数的模态特定Transformer编码器分支组成。编码器通过使用冻结的预训练基础模型分别提取每个模态的特征。我们开发了一个简单而有效的轻量级特征适配器,以自适应的方式将模态特定信息从一个模态转移到另一个模态,从而执行视觉特征提示融合。通过添加更少的(0.32M)可训练参数,我们的模型与完全微调方法和基于提示学习的方法相比,实现了卓越的跟踪性能。我们的代码已开源。

🔬 方法详解

问题定义:论文旨在解决多模态目标跟踪中,由于数据获取困难和环境变化导致模态信息难以有效融合的问题。现有方法要么需要大量数据进行微调,要么无法动态适应不同模态的重要性变化,导致跟踪精度下降。

核心思路:论文的核心思路是利用一个轻量级的双向适配器,在多个模态之间进行信息交换和融合。通过这种方式,模型可以动态地学习不同模态之间的互补信息,并自适应地调整各个模态的权重,从而提高跟踪的鲁棒性和准确性。

技术框架:该模型主要由三个部分组成:多个模态特定的Transformer编码器分支、一个通用双向适配器和一个跟踪头。首先,使用冻结的预训练基础模型提取每个模态的特征。然后,双向适配器将不同模态的特征进行交叉提示和融合。最后,融合后的特征被送入跟踪头进行目标定位和跟踪。

关键创新:该论文的关键创新在于提出了一个通用的双向适配器,用于多模态特征的动态融合。与传统的特征融合方法相比,该适配器可以自适应地学习不同模态之间的关系,并根据环境变化动态调整各个模态的权重。此外,该适配器采用轻量级设计,仅需少量可训练参数,即可实现显著的性能提升。

关键设计:双向适配器由多个Transformer层组成,每一层都包含一个自注意力模块和一个交叉注意力模块。自注意力模块用于学习每个模态内部的特征表示,交叉注意力模块用于学习不同模态之间的关系。此外,论文还设计了一个轻量级的特征适配器,用于将模态特定信息从一个模态转移到另一个模态,从而实现视觉特征提示融合。损失函数采用标准的跟踪损失函数,例如IoU损失和L1损失。

📊 实验亮点

该模型在多模态跟踪数据集上取得了显著的性能提升。与全微调方法和基于提示学习的方法相比,该模型在仅添加少量可训练参数(0.32M)的情况下,实现了更优的跟踪精度和鲁棒性。实验结果表明,该模型能够有效地融合多模态信息,并自适应地应对环境变化。

🎯 应用场景

该研究成果可应用于自动驾驶、智能监控、机器人导航等领域,尤其是在光照条件变化剧烈、遮挡严重等复杂环境下,多模态目标跟踪技术能够提供更稳定可靠的跟踪结果。该方法具有很高的实际应用价值,能够提升相关系统的智能化水平和鲁棒性。

📄 摘要(原文)

Due to the rapid development of computer vision, single-modal (RGB) object tracking has made significant progress in recent years. Considering the limitation of single imaging sensor, multi-modal images (RGB, Infrared, etc.) are introduced to compensate for this deficiency for all-weather object tracking in complex environments. However, as acquiring sufficient multi-modal tracking data is hard while the dominant modality changes with the open environment, most existing techniques fail to extract multi-modal complementary information dynamically, yielding unsatisfactory tracking performance. To handle this problem, we propose a novel multi-modal visual prompt tracking model based on a universal bi-directional adapter, cross-prompting multiple modalities mutually. Our model consists of a universal bi-directional adapter and multiple modality-specific transformer encoder branches with sharing parameters. The encoders extract features of each modality separately by using a frozen pre-trained foundation model. We develop a simple but effective light feature adapter to transfer modality-specific information from one modality to another, performing visual feature prompt fusion in an adaptive manner. With adding fewer (0.32M) trainable parameters, our model achieves superior tracking performance in comparison with both the full fine-tuning methods and the prompt learning-based methods. Our code is available: https://github.com/SparkTempest/BAT.