Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

📄 arXiv: 2603.09287v1 📥 PDF

作者: Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng

分类: cs.CV

发布日期: 2026-03-10


💡 一句话要点

MDTrack:针对多模态目标跟踪,提出模态感知融合与解耦时序传播方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态目标跟踪 模态感知融合 解耦时序传播 状态空间模型 混合专家模型

📋 核心要点

  1. 现有方法忽略了多模态数据间的差异,采用统一融合策略,导致信息利用率不高。
  2. MDTrack通过模态专属专家网络和门控机制,实现自适应的模态特定融合。
  3. MDTrack使用解耦的状态空间模型独立处理RGB和X模态的时序信息,并通过交叉注意力进行信息交互。

📝 摘要(中文)

本文提出了一种名为MDTrack的新框架,用于多模态目标跟踪中的模态感知融合和解耦时序传播。现有的大多数多模态跟踪器采用统一的融合策略,忽略了模态之间的内在差异。此外,它们通过混合token传播时间信息,导致时间表示纠缠且区分性较差。为了解决这些限制,MDTrack为每个模态(包括红外、事件、深度和RGB)分配专用专家来处理各自的表示。混合专家模型中的门控机制根据输入特征动态选择最佳专家,从而实现自适应和模态特定的融合。对于解耦时序传播,我们引入了两个独立的状态空间模型(SSM)结构,以独立存储和更新RGB和X模态流的隐藏状态,从而有效地捕获它们不同的时间信息。为了确保两个时间表示之间的协同作用,我们在两个SSM的输入特征之间加入了一组交叉注意力模块,以促进隐式信息交换。然后,通过另一组交叉注意力模块将由此产生的时序增强特征集成到骨干网络中,从而增强MDTrack利用时间信息的能力。大量实验表明了我们提出的方法的有效性。MDTrack S和MDTrack U在五个多模态跟踪基准测试中均实现了最先进的性能。

🔬 方法详解

问题定义:现有的多模态目标跟踪方法通常采用统一的融合策略,忽略了不同模态(如RGB、红外、深度等)之间的内在差异。此外,它们在时序信息建模时,往往将不同模态的信息混合在一起进行传播,导致时序表示纠缠不清,缺乏区分性,从而影响跟踪性能。

核心思路:MDTrack的核心思路是针对不同模态的数据,采用模态感知的融合策略,并对不同模态的时序信息进行解耦处理。具体来说,为每个模态分配专门的专家网络,学习其独特的特征表示,并通过门控机制动态选择合适的专家进行融合。同时,使用独立的状态空间模型(SSM)分别建模RGB和X模态的时序信息,并通过交叉注意力机制实现模态间的信息交互。

技术框架:MDTrack的整体框架包含模态感知融合模块和解耦时序传播模块。首先,对于每个模态,使用专门的专家网络提取特征。然后,通过混合专家模型(MoE)和门控机制,自适应地融合不同模态的特征。接下来,使用两个独立的状态空间模型(SSM)分别对RGB和X模态的时序信息进行建模。在两个SSM之间,使用交叉注意力模块进行信息交互。最后,将时序增强的特征集成到骨干网络中,用于目标跟踪。

关键创新:MDTrack的关键创新在于模态感知融合和解耦时序传播。模态感知融合通过为每个模态分配专门的专家网络,能够更好地学习和利用不同模态的特征。解耦时序传播通过独立的状态空间模型,避免了不同模态时序信息的纠缠,提高了时序表示的区分性。

关键设计:在模态感知融合模块中,使用了混合专家模型(MoE)和门控机制。门控机制根据输入特征动态选择最佳专家,实现自适应的模态特定融合。在解耦时序传播模块中,使用了两个独立的状态空间模型(SSM),分别对RGB和X模态的时序信息进行建模。为了确保两个时间表示之间的协同作用,在两个SSM的输入特征之间加入了一组交叉注意力模块,促进隐式信息交换。具体参数设置和损失函数细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MDTrack在五个多模态跟踪基准测试中均取得了state-of-the-art的性能。具体的数据提升幅度未在摘要中给出,属于未知信息。但摘要强调了MDTrack S和MDTrack U两个版本都超越了现有最佳方法,证明了该方法的有效性。

🎯 应用场景

MDTrack在多模态目标跟踪领域具有广泛的应用前景,例如自动驾驶、机器人导航、智能监控等。在这些场景中,不同模态的传感器(如摄像头、激光雷达、红外相机等)可以提供互补的信息,提高目标跟踪的准确性和鲁棒性。该研究的成果有助于提升复杂环境下的目标感知能力,为相关应用提供更可靠的技术支持。

📄 摘要(原文)

Most existing multimodal trackers adopt uniform fusion strategies, overlooking the inherent differences between modalities. Moreover, they propagate temporal information through mixed tokens, leading to entangled and less discriminative temporal representations. To address these limitations, we propose MDTrack, a novel framework for modality aware fusion and decoupled temporal propagation in multimodal object tracking. Specifically, for modality aware fusion, we allocate dedicated experts to each modality, including infrared, event, depth, and RGB, to process their respective representations. The gating mechanism within the Mixture of Experts dynamically selects the optimal experts based on the input features, enabling adaptive and modality specific fusion. For decoupled temporal propagation, we introduce two separate State Space Model structures to independently store and update the hidden states of the RGB and X modal streams, effectively capturing their distinct temporal information. To ensure synergy between the two temporal representations, we incorporate a set of cross attention modules between the input features of the two SSMs, facilitating implicit information exchange. The resulting temporally enriched features are then integrated into the backbone through another set of cross attention modules, enhancing MDTrack's ability to leverage temporal information. Extensive experiments demonstrate the effectiveness of our proposed method. Both MDTrack S and MDTrack U achieve state of the art performance across five multimodal tracking benchmarks.