STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection

📄 arXiv: 2412.20084v1 📥 PDF

作者: Zhangxun Li, Mengyang Zhao, Xuan Yang, Yang Liu, Jiamu Sheng, Xinhua Zeng, Tian Wang, Kewei Wu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2024-12-28


💡 一句话要点

提出STNMamba,基于Mamba的空间-时间常态学习用于视频异常检测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频异常检测 Mamba 空间-时间建模 常态学习 视觉空间状态块

📋 核心要点

  1. 现有视频异常检测方法依赖CNN和Transformer,计算成本高昂,且空间-时间常态学习能力有待提升。
  2. STNMamba利用Mamba架构建模长程依赖,设计双编码器和空间-时间交互模块,提升常态学习效率。
  3. 实验表明,STNMamba在三个基准数据集上以更少的参数和计算成本实现了与现有方法相当的性能。

📝 摘要(中文)

视频异常检测(VAD)因其在智能视频系统中的潜力而受到广泛研究。然而,大多数现有的基于CNN和Transformer的方法仍然存在大量的计算负担,并且在学习空间-时间常态方面仍有改进空间。最近,Mamba在以线性复杂度建模长程依赖关系方面显示出巨大的潜力,为上述困境提供了一个有效的解决方案。为此,我们提出了一种轻量级且有效的基于Mamba的网络,名为STNMamba,它结合了精心设计的Mamba模块,以增强空间-时间常态的学习。首先,我们开发了一种双编码器架构,其中配备多尺度视觉空间状态块(MS-VSSB)的空间编码器提取多尺度外观特征,时间编码器采用通道感知视觉空间状态块(CA-VSSB)来捕获重要的运动模式。其次,引入空间-时间交互模块(STIM)来整合跨多个级别的空间和时间信息,从而能够有效地建模内在的空间-时间一致性。在该模块中,提出了空间-时间融合块(STFB)以将空间和时间特征融合到统一的特征空间中,并且利用存储库来存储正常模式的空间-时间原型,从而限制模型表示异常的能力。在三个基准数据集上的大量实验表明,与现有方法相比,我们的STNMamba以更少的参数和更低的计算成本实现了具有竞争力的性能。

🔬 方法详解

问题定义:视频异常检测旨在识别视频中不符合正常模式的事件。现有方法,特别是基于CNN和Transformer的方法,通常计算量大,难以捕捉长程时序依赖关系,并且在学习正常模式的空间-时间分布方面存在局限性。

核心思路:STNMamba的核心思路是利用Mamba架构高效地建模视频中的长程时序依赖关系,并设计专门的模块来增强空间和时间信息的融合,从而更有效地学习视频中的正常模式。通过限制模型对正常模式的表达,从而更容易检测到异常。

技术框架:STNMamba采用双编码器架构,包括空间编码器和时间编码器。空间编码器使用多尺度视觉空间状态块(MS-VSSB)提取多尺度外观特征,时间编码器使用通道感知视觉空间状态块(CA-VSSB)捕获运动模式。然后,空间-时间交互模块(STIM)融合空间和时间特征,并利用存储库存储正常模式的特征原型。最后,通过比较输入特征与存储库中的原型来检测异常。

关键创新:STNMamba的关键创新在于将Mamba架构引入视频异常检测领域,并设计了专门的MS-VSSB和CA-VSSB模块来适应空间和时间特征的提取。空间-时间交互模块(STIM)以及空间-时间融合块(STFB)的设计,使得模型能够更好地理解视频中的空间-时间关系。存储库的使用限制了模型对异常的表达能力,从而提高了异常检测的准确性。

关键设计:MS-VSSB和CA-VSSB是基于Mamba块的变体,针对空间和时间特征的特点进行了优化。空间-时间融合块(STFB)使用注意力机制融合空间和时间特征。存储库存储正常模式的特征原型,用于限制模型对异常的表达。损失函数可能包含重建损失和对比损失,以鼓励模型学习正常模式的特征表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STNMamba在ShanghaiTech、CUHK Avenue和UCSD Ped2数据集上进行了评估,实验结果表明,STNMamba在参数量和计算成本方面优于现有方法,同时实现了具有竞争力的异常检测性能。具体性能数据需要在论文中查找。

🎯 应用场景

STNMamba可应用于智能监控系统、工业异常检测、医疗影像分析等领域。例如,在智能监控中,可以自动检测异常行为,如打架、盗窃等;在工业异常检测中,可以检测生产线上的设备故障;在医疗影像分析中,可以辅助医生诊断疾病。该研究有助于提升视频分析系统的智能化水平,降低人工成本,提高效率。

📄 摘要(原文)

Video anomaly detection (VAD) has been extensively researched due to its potential for intelligent video systems. However, most existing methods based on CNNs and transformers still suffer from substantial computational burdens and have room for improvement in learning spatial-temporal normality. Recently, Mamba has shown great potential for modeling long-range dependencies with linear complexity, providing an effective solution to the above dilemma. To this end, we propose a lightweight and effective Mamba-based network named STNMamba, which incorporates carefully designed Mamba modules to enhance the learning of spatial-temporal normality. Firstly, we develop a dual-encoder architecture, where the spatial encoder equipped with Multi-Scale Vision Space State Blocks (MS-VSSB) extracts multi-scale appearance features, and the temporal encoder employs Channel-Aware Vision Space State Blocks (CA-VSSB) to capture significant motion patterns. Secondly, a Spatial-Temporal Interaction Module (STIM) is introduced to integrate spatial and temporal information across multiple levels, enabling effective modeling of intrinsic spatial-temporal consistency. Within this module, the Spatial-Temporal Fusion Block (STFB) is proposed to fuse the spatial and temporal features into a unified feature space, and the memory bank is utilized to store spatial-temporal prototypes of normal patterns, restricting the model's ability to represent anomalies. Extensive experiments on three benchmark datasets demonstrate that our STNMamba achieves competitive performance with fewer parameters and lower computational costs than existing methods.