SMamba: Sparse Mamba for Event-based Object Detection

📄 arXiv: 2501.11971v1 📥 PDF

作者: Nan Yang, Yang Wang, Zhanwen Liu, Meng Li, Yisheng An, Xiangmo Zhao

分类: cs.CV

发布日期: 2025-01-21

备注: AAAI2025


💡 一句话要点

提出SMamba:一种稀疏Mamba架构,用于提升事件相机目标检测的效率与精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 事件相机 目标检测 稀疏化 Mamba 全局建模

📋 核心要点

  1. 现有基于Transformer的事件相机目标检测方法计算成本高,且对噪声区域处理不加区分。
  2. SMamba通过时空连续性评估模块和信息优先的局部扫描策略,实现自适应稀疏化,降低计算量并保持全局建模能力。
  3. 实验结果表明,SMamba在Gen1、1Mpx和eTram数据集上,性能和效率均优于现有方法。

📝 摘要(中文)

本文提出了一种名为Sparse Mamba (SMamba) 的新方法,用于事件相机目标检测,旨在提高效率的同时保持全局建模能力。现有基于Transformer的方法虽然性能出色,但忽略了非事件和噪声区域的影响,导致计算开销过高。为了降低计算成本,一些研究者采用基于窗口注意力的稀疏化策略,但牺牲了全局建模能力。SMamba通过自适应稀疏化来减少计算量。具体而言,提出了时空连续性评估模块,用于评估token的信息含量,并丢弃不重要的token。基于评估结果,设计了信息优先的局部扫描策略,缩短高信息token之间的扫描距离,促进空间维度上的交互。此外,提出了全局通道交互模块,从全局空间角度聚合通道信息,将全局交互从2D空间扩展到3D表示。在Gen1、1Mpx和eTram三个数据集上的实验结果表明,SMamba在性能和效率方面均优于其他方法。

🔬 方法详解

问题定义:事件相机目标检测旨在从事件流中准确识别和定位目标。现有基于Transformer的方法虽然具有全局建模能力,但计算复杂度高,尤其是在处理包含大量噪声和冗余信息的事件流时,效率较低。此外,一些稀疏化方法虽然降低了计算量,但牺牲了全局上下文信息,导致检测精度下降。

核心思路:SMamba的核心思路是通过自适应稀疏化,在降低计算复杂度的同时,保持全局建模能力。它通过评估事件token的信息量,选择性地丢弃不重要的token,从而减少需要处理的数据量。同时,通过信息优先的局部扫描策略和全局通道交互模块,保证重要信息能够充分交互,维持全局上下文信息。

技术框架:SMamba的整体框架包括以下几个主要模块:1) 时空连续性评估模块 (Spatio-Temporal Continuity Assessment):用于评估每个事件token的信息含量,并根据评估结果进行稀疏化。2) 信息优先的局部扫描策略 (Information-Prioritized Local Scan):用于在高信息token之间建立更有效的连接,促进局部信息的交互。3) 全局通道交互模块 (Global Channel Interaction):用于聚合全局空间信息,增强通道间的交互。整个流程是先进行稀疏化,然后进行局部扫描和全局通道交互,最后进行目标检测。

关键创新:SMamba的关键创新在于其自适应稀疏化策略,该策略能够根据事件流的特性动态地选择需要处理的token,从而在计算效率和精度之间取得更好的平衡。与传统的固定稀疏化方法相比,SMamba能够更好地适应不同的场景和数据分布。此外,信息优先的局部扫描策略和全局通道交互模块进一步增强了模型的全局建模能力。

关键设计:时空连续性评估模块通过分析事件token在时空上的分布差异来评估其信息含量。信息优先的局部扫描策略通过缩短高信息token之间的扫描距离来促进它们之间的交互。全局通道交互模块通过全局平均池化等操作来聚合全局空间信息,并将其用于通道间的交互。具体的参数设置和网络结构细节在论文中进行了详细描述,例如,稀疏化的比例、局部扫描的范围等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SMamba在Gen1、1Mpx和eTram三个数据集上均取得了优异的性能。例如,在Gen1数据集上,SMamba在保持较高精度的同时,显著降低了计算量,相比于基线方法,实现了更高的效率。实验结果表明,SMamba的自适应稀疏化策略能够有效地减少冗余计算,提高模型的整体性能。具体的数据指标和对比结果在论文中进行了详细展示。

🎯 应用场景

SMamba在事件相机目标检测领域具有广泛的应用前景,例如自动驾驶、机器人导航、安防监控等。事件相机具有高动态范围和低延迟的特性,使其在光照条件不佳或快速运动的场景中表现出色。SMamba的稀疏化策略进一步提高了事件相机目标检测的效率,使其能够应用于资源受限的设备上,例如无人机、移动机器人等。未来,SMamba有望与其他技术相结合,例如事件相机SLAM、事件相机姿态估计等,进一步拓展事件相机的应用范围。

📄 摘要(原文)

Transformer-based methods have achieved remarkable performance in event-based object detection, owing to the global modeling ability. However, they neglect the influence of non-event and noisy regions and process them uniformly, leading to high computational overhead. To mitigate computation cost, some researchers propose window attention based sparsification strategies to discard unimportant regions, which sacrifices the global modeling ability and results in suboptimal performance. To achieve better trade-off between accuracy and efficiency, we propose Sparse Mamba (SMamba), which performs adaptive sparsification to reduce computational effort while maintaining global modeling capability. Specifically, a Spatio-Temporal Continuity Assessment module is proposed to measure the information content of tokens and discard uninformative ones by leveraging the spatiotemporal distribution differences between activity and noise events. Based on the assessment results, an Information-Prioritized Local Scan strategy is designed to shorten the scan distance between high-information tokens, facilitating interactions among them in the spatial dimension. Furthermore, to extend the global interaction from 2D space to 3D representations, a Global Channel Interaction module is proposed to aggregate channel information from a global spatial perspective. Results on three datasets (Gen1, 1Mpx, and eTram) demonstrate that our model outperforms other methods in both performance and efficiency.