Event-Adaptive State Transition and Gated Fusion for RGB-Event Object Tracking

📄 arXiv: 2604.13426v1 📥 PDF

作者: Jinlin You, Muyu Li, Xudong Zhao

分类: cs.CV, cs.AI

发布日期: 2026-04-15


💡 一句话要点

MambaTrack:提出事件自适应状态转移和门控融合的RGB-Event目标跟踪框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RGB-Event跟踪 动态状态空间模型 事件自适应 门控融合 跨模态融合 目标跟踪 Vision Mamba

📋 核心要点

  1. 现有RGB-Event跟踪方法采用静态状态转移矩阵,无法适应事件数据稀疏性的变化,导致模型性能下降。
  2. MambaTrack通过动态调整状态转移矩阵和门控融合机制,实现了对不同密度事件流的自适应建模和鲁棒的跨模态融合。
  3. 实验结果表明,MambaTrack在FE108和FELT数据集上取得了SOTA性能,并具有实时嵌入式部署的潜力。

📝 摘要(中文)

现有的基于Vision Mamba的RGB-Event(RGBE)跟踪方法使用静态状态转移矩阵,无法适应事件稀疏性的变化。这种刚性导致不平衡的建模——对稀疏事件流欠拟合,对密集事件流过拟合——从而降低了跨模态融合的鲁棒性。为了解决这些限制,我们提出了MambaTrack,一个基于动态状态空间模型(DSSM)的多模态和高效跟踪框架。我们的贡献是双重的。首先,我们引入了一种事件自适应状态转移机制,该机制基于事件流密度动态地调节状态转移矩阵。一个可学习的标量控制状态演化率,从而能够对稀疏和密集的事件流进行差异化建模。其次,我们开发了一个门控投影融合(GPF)模块,用于鲁棒的跨模态集成。该模块将RGB特征投影到事件特征空间,并从事件密度和RGB置信度分数生成自适应门。这些门精确地控制融合强度,抑制噪声,同时保留互补信息。实验表明,MambaTrack在FE108和FELT数据集上实现了最先进的性能。其轻量级设计表明了实时嵌入式部署的潜力。

🔬 方法详解

问题定义:现有基于Vision Mamba的RGB-Event目标跟踪方法,其核心问题在于使用静态的状态转移矩阵。这种静态性使得模型无法根据事件流的稀疏程度进行自适应调整,导致在事件数据稀疏时模型欠拟合,而在事件数据密集时模型过拟合,最终影响跨模态融合的鲁棒性。

核心思路:MambaTrack的核心思路是引入动态状态空间模型(DSSM),并设计事件自适应的状态转移机制和门控投影融合(GPF)模块。通过事件密度动态调整状态转移矩阵,使模型能够根据事件流的稀疏程度自适应地调整状态演化速度。GPF模块则通过门控机制控制RGB特征和事件特征的融合强度,抑制噪声并保留互补信息。

技术框架:MambaTrack整体框架基于动态状态空间模型(DSSM)。首先,分别提取RGB图像和事件流的特征。然后,通过事件自适应状态转移机制动态调整状态转移矩阵,对事件特征进行建模。接着,利用GPF模块将RGB特征投影到事件特征空间,并使用自适应门控机制进行跨模态融合。最后,利用融合后的特征进行目标跟踪。

关键创新:MambaTrack的关键创新在于两个方面:一是事件自适应状态转移机制,它能够根据事件流的密度动态调整状态转移矩阵,从而实现对不同稀疏程度事件流的自适应建模。二是门控投影融合(GPF)模块,它通过自适应门控机制控制RGB特征和事件特征的融合强度,抑制噪声并保留互补信息。与现有方法相比,MambaTrack能够更好地适应事件数据的变化,提高跨模态融合的鲁棒性。

关键设计:事件自适应状态转移机制中,使用一个可学习的标量来控制状态演化率,该标量根据事件流的密度进行调整。GPF模块中,自适应门控机制的门控信号由事件密度和RGB置信度分数共同决定。损失函数方面,论文可能采用了标准的跟踪损失函数,例如IoU损失或L1损失。具体的网络结构细节(例如Mamba的具体配置)需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MambaTrack在FE108和FELT数据集上取得了state-of-the-art的性能。具体提升幅度需要在论文中查找详细的实验数据。该方法通过动态调整状态转移矩阵和门控融合机制,显著提高了对不同密度事件流的适应性和跨模态融合的鲁棒性。

🎯 应用场景

MambaTrack在目标跟踪领域具有广泛的应用前景,尤其适用于光照条件恶劣、快速运动等复杂场景。例如,可应用于自动驾驶、机器人导航、安防监控等领域。该研究的轻量化设计使其具有实时嵌入式部署的潜力,有望推动相关技术在资源受限平台上的应用。

📄 摘要(原文)

Existing Vision Mamba-based RGB-Event(RGBE) tracking methods suffer from using static state transition matrices, which fail to adapt to variations in event sparsity. This rigidity leads to imbalanced modeling-underfitting sparse event streams and overfitting dense ones-thus degrading cross-modal fusion robustness. To address these limitations, we propose MambaTrack, a multimodal and efficient tracking framework built upon a Dynamic State Space Model(DSSM). Our contributions are twofold. First, we introduce an event-adaptive state transition mechanism that dynamically modulates the state transition matrix based on event stream density. A learnable scalar governs the state evolution rate, enabling differentiated modeling of sparse and dense event flows. Second, we develop a Gated Projection Fusion(GPF) module for robust cross-modal integration. This module projects RGB features into the event feature space and generates adaptive gates from event density and RGB confidence scores. These gates precisely control the fusion intensity, suppressing noise while preserving complementary information. Experiments show that MambaTrack achieves state-of-the-art performance on the FE108 and FELT datasets. Its lightweight design suggests potential for real-time embedded deployment.