MFil-Mamba: Multi-Filter Scanning for Spatial Redundancy-Aware Visual State Space Models
作者: Puskal Khadka, KC Santosh
分类: cs.CV
发布日期: 2026-03-20
🔗 代码/项目: GITHUB
💡 一句话要点
MFil-Mamba:面向空间冗余感知的视觉状态空间模型,采用多滤波器扫描
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 视觉状态空间模型 多滤波器扫描 空间冗余感知 自适应加权 图像分类 目标检测 语义分割
📋 核心要点
- 现有视觉SSM方法依赖于对相同输入进行多次遍历,导致冗余并扭曲图像空间关系。
- MFil-Mamba采用多滤波器扫描骨干,每次扫描捕获独特的空间信息,并使用自适应加权融合。
- 实验表明,MFil-Mamba在图像分类、目标检测、实例分割和语义分割等任务上优于现有模型。
📝 摘要(中文)
状态空间模型(SSM),特别是最近的Mamba架构,在序列建模任务中取得了显著成功。然而,由于视觉数据非序列结构及其复杂的2D空间依赖性,将SSM扩展到计算机视觉仍然具有挑战性。尽管早期的一些研究探索了将选择性SSM应用于视觉任务,但大多数方法主要依赖于对相同输入采用各种遍历策略。这引入了冗余并扭曲了图像中复杂的空间关系。为了解决这些挑战,我们提出了MFil-Mamba,一种建立在多滤波器扫描骨干上的新型视觉状态空间架构。与固定的多方向遍历方法不同,我们的设计使每次扫描都能捕获独特的、上下文相关的空间信息,同时最大限度地减少冗余。此外,我们还结合了一种自适应加权机制,以有效地融合来自多次扫描的输出,并进行架构增强。MFil-Mamba在包括图像分类、目标检测、实例分割和语义分割在内的各种基准测试中,实现了优于现有最先进模型的性能。例如,我们的小型变体在ImageNet-1K上达到了83.2%的top-1准确率,在MS COCO上达到了47.3%的box AP和42.7%的mask AP,在ADE20K数据集上达到了48.5%的mIoU。代码和模型可在https://github.com/puskal-khadka/MFil-Mamba获取。
🔬 方法详解
问题定义:现有视觉状态空间模型在处理图像时,通常采用固定的多方向遍历策略,对输入图像进行多次扫描。这种方法的主要痛点在于引入了大量的冗余信息,并且在多次扫描的过程中,图像原有的空间关系会被扭曲,从而影响模型的性能。
核心思路:MFil-Mamba的核心思路是通过多滤波器扫描来提取图像中不同类型的空间信息,并设计自适应加权机制来融合这些信息。这种方法旨在减少冗余,保留图像的空间关系,从而提升模型的性能。核心在于让不同的滤波器关注不同的空间特征,避免重复提取相同的信息。
技术框架:MFil-Mamba的整体架构包含以下几个主要模块:1) 多滤波器扫描模块:使用多个不同的滤波器对输入图像进行扫描,每个滤波器提取不同的空间特征。2) 状态空间模型模块:对每个滤波器扫描的结果应用状态空间模型进行序列建模。3) 自适应加权模块:根据每个滤波器扫描结果的重要性,自适应地调整其权重,然后将所有扫描结果进行融合。
关键创新:MFil-Mamba最重要的技术创新点在于其多滤波器扫描机制和自适应加权融合机制。与传统的固定多方向遍历方法不同,MFil-Mamba的每个滤波器都旨在捕获独特的空间信息,从而减少冗余。自适应加权机制能够根据不同扫描结果的重要性进行动态调整,从而更好地融合信息。
关键设计:在多滤波器扫描模块中,滤波器的类型和数量是关键的设计参数。论文中可能采用了不同尺寸、不同方向的滤波器。自适应加权模块可能使用了注意力机制或者其他类似的加权方法。具体的损失函数设计可能包括交叉熵损失、Dice损失等,以优化模型的性能。
🖼️ 关键图片
📊 实验亮点
MFil-Mamba在多个基准数据集上取得了显著的性能提升。例如,在ImageNet-1K图像分类任务上,其小型变体达到了83.2%的top-1准确率。在MS COCO目标检测任务上,达到了47.3%的box AP和42.7%的mask AP。在ADE20K语义分割任务上,达到了48.5%的mIoU。这些结果表明,MFil-Mamba在各种视觉任务上都优于现有的最先进模型。
🎯 应用场景
MFil-Mamba具有广泛的应用前景,可应用于图像分类、目标检测、图像分割等多种计算机视觉任务。该研究的实际价值在于提升了视觉状态空间模型的性能,使其在处理复杂视觉数据时更加有效。未来,该方法可以进一步扩展到视频理解、三维视觉等领域,为相关应用提供更强大的技术支持。
📄 摘要(原文)
State Space Models (SSMs), especially recent Mamba architecture, have achieved remarkable success in sequence modeling tasks. However, extending SSMs to computer vision remains challenging due to the non-sequential structure of visual data and its complex 2D spatial dependencies. Although several early studies have explored adapting selective SSMs for vision applications, most approaches primarily depend on employing various traversal strategies over the same input. This introduces redundancy and distorts the intricate spatial relationships within images. To address these challenges, we propose MFil-Mamba, a novel visual state space architecture built on a multi-filter scanning backbone. Unlike fixed multi-directional traversal methods, our design enables each scan to capture unique and contextually relevant spatial information while minimizing redundancy. Furthermore, we incorporate an adaptive weighting mechanism to effectively fuse outputs from multiple scans in addition to architectural enhancements. MFil-Mamba achieves superior performance over existing state-of-the-art models across various benchmarks that include image classification, object detection, instance segmentation, and semantic segmentation. For example, our tiny variant attains 83.2% top-1 accuracy on ImageNet-1K, 47.3% box AP and 42.7% mask AP on MS COCO, and 48.5% mIoU on the ADE20K dataset. Code and models are available at https://github.com/puskal-khadka/MFil-Mamba.