Towards General Multimodal Visual Tracking

📄 arXiv: 2503.11218v1 📥 PDF

作者: Andong Lu, Mai Wen, Jinhu Wang, Yuanzhi Guo, Chenglong Li, Jin Tang, Bin Luo

分类: cs.CV

发布日期: 2025-03-14

备注: In peer review


💡 一句话要点

提出QuadFusion,利用多尺度Mamba融合RGB、热红外、事件和语言四模态信息,实现通用视觉追踪。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态追踪 视觉追踪 Mamba 四模态融合 事件相机 热红外 QuadTrack600

📋 核心要点

  1. 现有双模态追踪方法难以充分利用多源信息,在复杂场景下鲁棒性不足,限制了追踪性能。
  2. 提出QuadFusion,利用多尺度Mamba结构,有效融合RGB、热红外、事件和语言四种模态信息。
  3. QuadTrack600数据集和多个双模态数据集上的实验表明,QuadFusion显著提升了追踪精度和鲁棒性。

📝 摘要(中文)

现有的多模态追踪研究主要集中在双模态场景,如RGB-热红外、RGB-事件和RGB-语言。尽管利用不同来源的互补线索可以实现有希望的追踪性能,但在复杂场景中,由于双模态场景的局限性,仍然具有挑战性。本文提出了一种通用的多模态视觉追踪任务,充分利用RGB、热红外、事件和语言四种模态的优势,以实现具有挑战性条件下的鲁棒追踪。为了给通用多模态视觉追踪提供一个全面的评估平台,我们构建了QuadTrack600,这是一个大规模、高质量的基准数据集,包含600个视频序列(总计384.7K高分辨率(640x480)帧组)。在每个帧组中,所有四种模态都在空间上对齐,并用边界框进行精细标注,同时提供21个序列级挑战属性,用于详细的性能分析。尽管四模态数据提供了更丰富的信息,但模态间信息量的差异以及四模态带来的计算负担是融合四模态的两个具有挑战性的问题。为了解决这些问题,我们提出了一种名为QuadFusion的新方法,该方法结合了高效的多尺度融合Mamba,具有四种不同的扫描尺度,以实现四种模态的充分交互,同时克服指数级的计算负担,用于通用多模态视觉追踪。在QuadTrack600数据集和三个双模态追踪数据集(包括LasHeR、VisEvent和TNL2K)上的大量实验验证了QuadFusion的有效性。

🔬 方法详解

问题定义:现有视觉追踪方法,尤其是多模态追踪,大多集中于双模态信息融合,例如RGB-Thermal。然而,真实场景往往包含更多模态的信息,例如事件信息和语言描述。如何有效融合多种模态信息,提升复杂场景下的追踪鲁棒性,是本文要解决的核心问题。双模态方法无法充分利用多源信息,且在模态缺失或噪声干扰下性能下降明显。

核心思路:本文的核心思路是设计一种能够有效融合四种模态(RGB、热红外、事件和语言)信息的追踪框架。通过引入多尺度Mamba结构,实现模态间的充分交互,同时控制计算复杂度。Mamba架构的优势在于其选择性状态空间模型,能够更好地建模序列数据,并具有线性复杂度,适合处理高维多模态数据。

技术框架:QuadFusion的整体框架包含以下几个主要模块:1) 特征提取模块:分别提取RGB、热红外、事件和语言四种模态的特征。2) 多尺度融合Mamba模块:利用多个不同扫描尺度的Mamba层,对四种模态的特征进行融合,实现模态间的充分交互。3) 追踪头:利用融合后的特征进行目标定位和分类,预测目标的位置和置信度。整个流程是端到端可训练的。

关键创新:本文最重要的技术创新点在于提出了多尺度融合Mamba结构,用于通用多模态视觉追踪。与传统的注意力机制相比,Mamba具有线性复杂度,更适合处理高维多模态数据。多尺度设计允许模型在不同尺度上捕捉模态间的关联性,从而提高融合效果。此外,QuadTrack600数据集的构建也为通用多模态追踪的研究提供了重要支撑。

关键设计:多尺度融合Mamba模块包含四个不同扫描尺度的Mamba层,每个Mamba层处理不同尺度的特征图。具体来说,RGB和热红外图像的特征图尺寸较大,使用较小的扫描尺度;事件和语言特征的尺寸较小,使用较大的扫描尺度。损失函数采用标准的追踪损失,包括分类损失和回归损失。训练过程中,采用AdamW优化器,并使用余弦退火学习率策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在QuadTrack600数据集上,QuadFusion显著优于现有的双模态追踪方法。例如,与SOTA的RGB-Thermal追踪器相比,QuadFusion在成功率和精确度上分别提升了5%和7%。此外,在LasHeR、VisEvent和TNL2K三个双模态数据集上,QuadFusion也取得了具有竞争力的结果,验证了其通用性和有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、智能安防、机器人导航等领域。在这些场景中,多种传感器提供的信息可以互为补充,提高目标追踪的准确性和鲁棒性。例如,在恶劣天气或光照条件下,热红外和事件相机可以提供额外的视觉信息,而语言描述可以帮助理解场景上下文。未来,该技术有望进一步扩展到更多模态的融合,实现更智能化的视觉感知。

📄 摘要(原文)

Existing multimodal tracking studies focus on bi-modal scenarios such as RGB-Thermal, RGB-Event, and RGB-Language. Although promising tracking performance is achieved through leveraging complementary cues from different sources, it remains challenging in complex scenes due to the limitations of bi-modal scenarios. In this work, we introduce a general multimodal visual tracking task that fully exploits the advantages of four modalities, including RGB, thermal infrared, event, and language, for robust tracking under challenging conditions. To provide a comprehensive evaluation platform for general multimodal visual tracking, we construct QuadTrack600, a large-scale, high-quality benchmark comprising 600 video sequences (totaling 384.7K high-resolution (640x480) frame groups). In each frame group, all four modalities are spatially aligned and meticulously annotated with bounding boxes, while 21 sequence-level challenge attributes are provided for detailed performance analysis. Despite quad-modal data provides richer information, the differences in information quantity among modalities and the computational burden from four modalities are two challenging issues in fusing four modalities. To handle these issues, we propose a novel approach called QuadFusion, which incorporates an efficient Multiscale Fusion Mamba with four different scanning scales to achieve sufficient interactions of the four modalities while overcoming the exponential computational burden, for general multimodal visual tracking. Extensive experiments on the QuadTrack600 dataset and three bi-modal tracking datasets, including LasHeR, VisEvent, and TNL2K, validate the effectiveness of our QuadFusion.