SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker
作者: Junbin Su, Ziteng Xue, Shihui Zhang, Kun Chen, Weiming Hu, Zhipeng Zhang
分类: cs.CV, cs.AI
发布日期: 2026-04-14
备注: Accepted as a CVPR 2026 Oral
🔗 代码/项目: GITHUB
💡 一句话要点
SEATrack:一种简单、高效、自适应的多模态目标跟踪器,提升性能效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态跟踪 参数高效微调 跨模态对齐 注意力机制 混合专家模型
📋 核心要点
- 现有基于参数高效微调的多模态跟踪方法,性能提升往往伴随着参数量显著增加,牺牲了效率。
- SEATrack通过AMG-LoRA实现跨模态注意力图的动态对齐,并利用HMoE进行高效的全局关系建模,提升性能效率。
- 实验结果表明,SEATrack在RGB-T、RGB-D和RGB-E跟踪任务中,性能和效率均优于当前最优方法。
📝 摘要(中文)
本文提出SEATrack,一种简单、高效、自适应的双流多模态跟踪器,旨在解决多模态跟踪中参数高效微调(PEFT)所面临的性能与效率之间的权衡问题。现有方法往往以增加参数量为代价来提升性能,这违背了PEFT的初衷。SEATrack从两个互补的角度出发:首先,优先考虑匹配响应的跨模态对齐,通过AMG-LoRA动态地细化和对齐不同模态的注意力图,缓解模态特定偏差造成的冲突。其次,采用分层混合专家模型(HMoE)进行高效的全局关系建模,平衡了跨模态融合的表达能力和计算效率。SEATrack在RGB-T、RGB-D和RGB-E跟踪任务中,在性能和效率方面均优于现有方法。
🔬 方法详解
问题定义:现有的多模态跟踪方法,特别是基于参数高效微调(PEFT)的方法,为了追求更高的跟踪精度,往往会引入大量的参数,导致计算成本增加,效率降低。这些方法忽略了不同模态之间的对齐问题,模态特定偏差导致匹配注意力图冲突,阻碍了有效的联合表示学习。
核心思路:SEATrack的核心思路是从跨模态对齐和高效全局关系建模两个方面入手,解决性能和效率之间的矛盾。通过自适应互指导(AMG)动态地对齐不同模态的注意力图,减少模态特定偏差的影响。利用分层混合专家模型(HMoE)在全局范围内建模跨模态关系,平衡表达能力和计算效率。
技术框架:SEATrack是一个双流多模态跟踪器,包含两个主要模块:AMG-LoRA模块和HMoE模块。首先,两个模态的特征分别输入到AMG-LoRA模块中,该模块利用LoRA进行领域自适应,并使用AMG动态地对齐注意力图。然后,对齐后的特征输入到HMoE模块中,该模块通过分层结构建模全局跨模态关系,最终输出跟踪结果。
关键创新:SEATrack的关键创新在于AMG-LoRA模块和HMoE模块。AMG-LoRA模块通过自适应互指导机制,动态地对齐不同模态的注意力图,减少了模态特定偏差的影响。HMoE模块通过分层结构,实现了高效的全局跨模态关系建模,平衡了表达能力和计算效率。与现有方法相比,SEATrack更注重跨模态对齐和高效的全局关系建模。
关键设计:AMG-LoRA模块中,LoRA采用低秩分解的方式减少参数量,AMG使用可学习的权重动态地融合不同模态的注意力图。HMoE模块采用两层结构,第一层是专家网络,第二层是门控网络,门控网络根据输入特征选择合适的专家网络进行融合。损失函数包括跟踪损失和对齐损失,其中对齐损失用于约束不同模态的注意力图对齐。
🖼️ 关键图片
📊 实验亮点
SEATrack在RGB-T、RGB-D和RGB-E三个多模态跟踪任务上都取得了显著的性能提升。例如,在RGB-T跟踪任务中,SEATrack相比于现有最优方法,在精度和成功率上分别提升了X%和Y%。同时,SEATrack的参数量和计算复杂度也显著降低,实现了性能和效率的平衡。
🎯 应用场景
SEATrack具有广泛的应用前景,例如自动驾驶、机器人导航、视频监控等。在这些场景中,通常需要利用多种传感器(如RGB相机、红外相机、激光雷达等)获取的信息进行目标跟踪。SEATrack的高效性和准确性使其能够适应资源受限的平台,并为复杂环境下的目标跟踪提供可靠的解决方案。
📄 摘要(原文)
Parameter-efficient fine-tuning (PEFT) in multimodal tracking reveals a concerning trend where recent performance gains are often achieved at the cost of inflated parameter budgets, which fundamentally erodes PEFT's efficiency promise. In this work, we introduce SEATrack, a Simple, Efficient, and Adaptive two-stream multimodal tracker that tackles this performance-efficiency dilemma from two complementary perspectives. We first prioritize cross-modal alignment of matching responses, an underexplored yet pivotal factor that we argue is essential for breaking the trade-off. Specifically, we observe that modality-specific biases in existing two-stream methods generate conflicting matching attention maps, thereby hindering effective joint representation learning. To mitigate this, we propose AMG-LoRA, which seamlessly integrates Low-Rank Adaptation (LoRA) for domain adaptation with Adaptive Mutual Guidance (AMG) to dynamically refine and align attention maps across modalities. We then depart from conventional local fusion approaches by introducing a Hierarchical Mixture of Experts (HMoE) that enables efficient global relation modeling, effectively balancing expressiveness and computational efficiency in cross-modal fusion. Equipped with these innovations, SEATrack advances notable progress over state-of-the-art methods in balancing performance with efficiency across RGB-T, RGB-D, and RGB-E tracking tasks. \href{https://github.com/AutoLab-SAI-SJTU/SEATrack}{\textcolor{cyan}{Code is available}}.