MambaMIC: An Efficient Baseline for Microscopic Image Classification with State Space Models

📄 arXiv: 2409.07896v2 📥 PDF

作者: Shun Zou, Zhuo Zhang, Yi Zou, Guangwei Gao

分类: cs.CV

发布日期: 2024-09-12 (更新: 2025-03-15)

备注: 7 pages, 4 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MambaMIC:一种基于状态空间模型的高效显微图像分类基线方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 显微图像分类 状态空间模型 局部-全局聚合 Mamba 医学图像分析

📋 核心要点

  1. 现有MIC方法难以兼顾全局建模和高效计算,SSM虽能模拟长程依赖,但存在局部像素遗忘、通道冗余等问题。
  2. MambaMIC提出局部-全局双分支聚合模块,利用局部卷积捕获像素相似性,SSM提取全局依赖,并用局部感知增强滤波器减少冗余。
  3. 实验表明,MambaMIC在五个数据集上取得了SOTA性能,验证了其在MIC任务上的有效性。

📝 摘要(中文)

近年来,基于CNN和Transformer的方法在显微图像分类(MIC)领域取得了显著进展。然而,现有方法仍然面临全局建模和高效计算之间的两难选择。选择性状态空间模型(SSM)虽然能够以线性复杂度模拟长程依赖关系,但在MIC中仍然面临挑战,例如局部像素遗忘、通道冗余和缺乏局部感知。为了解决这些问题,我们提出了一种简单而高效的MIC视觉骨干网络,名为MambaMIC。具体来说,我们引入了一个局部-全局双分支聚合模块:MambaMIC Block,旨在有效地捕获和融合局部连接和全局依赖关系。在局部分支中,我们使用局部卷积来捕获像素相似性,从而减轻局部像素遗忘并增强感知。在全局分支中,SSM提取全局依赖关系,而局部感知增强滤波器减少通道冗余和局部像素遗忘。此外,我们设计了一个特征调制交互聚合模块,用于深度特征交互和关键特征重定位。广泛的基准测试表明,MambaMIC在五个数据集上实现了最先进的性能。代码可在https://zs1314.github.io/MambaMIC 获取。

🔬 方法详解

问题定义:论文旨在解决显微图像分类(MIC)任务中,现有方法在全局建模和高效计算之间难以平衡的问题。具体来说,现有方法要么计算复杂度高,要么无法有效捕捉图像中的长程依赖关系,同时还存在局部像素信息丢失和通道冗余的问题。

核心思路:论文的核心思路是设计一个兼顾局部信息和全局依赖的骨干网络。通过局部卷积增强局部感知,利用选择性状态空间模型(SSM)捕捉全局依赖,并引入局部感知增强滤波器减少通道冗余,从而在保证性能的同时提高计算效率。

技术框架:MambaMIC的整体架构包含多个MambaMIC Block和特征调制交互聚合模块。MambaMIC Block是核心模块,包含局部分支和全局分支。局部分支使用局部卷积提取局部特征,全局分支使用SSM提取全局依赖。特征调制交互聚合模块用于深度特征的交互和关键特征的重定位。整个网络通过堆叠这些模块,逐步提取图像的特征并进行分类。

关键创新:MambaMIC的关键创新在于局部-全局双分支聚合模块的设计。该模块将局部卷积和SSM结合起来,既能捕捉局部像素的相似性,又能模拟长程依赖关系。此外,局部感知增强滤波器的引入,有效减少了通道冗余和局部像素遗忘,提高了模型的效率和准确性。

关键设计:MambaMIC Block的具体设计包括:局部分支采用3x3卷积,全局分支采用Mamba结构,局部感知增强滤波器采用1x1卷积。特征调制交互聚合模块采用注意力机制,用于特征的加权和融合。损失函数采用交叉熵损失函数。具体的参数设置和网络结构细节需要在代码中进一步查看。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MambaMIC在五个显微图像数据集上取得了SOTA性能,证明了其有效性。具体性能数据需要在论文中查找。相较于传统的CNN和Transformer方法,MambaMIC在性能相当的情况下,计算效率更高,更适合处理大规模的显微图像数据。

🎯 应用场景

MambaMIC在医学图像分析领域具有广泛的应用前景,例如细胞分类、组织病理学分析、疾病诊断等。该方法能够提高显微图像分类的准确性和效率,有助于医生更准确地诊断疾病,并为药物研发提供支持。未来,该方法还可以应用于其他图像分类任务,例如遥感图像分析、工业缺陷检测等。

📄 摘要(原文)

In recent years, CNN and Transformer-based methods have made significant progress in Microscopic Image Classification (MIC). However, existing approaches still face the dilemma between global modeling and efficient computation. While the Selective State Space Model (SSM) can simulate long-range dependencies with linear complexity, it still encounters challenges in MIC, such as local pixel forgetting, channel redundancy, and lack of local perception. To address these issues, we propose a simple yet efficient vision backbone for MIC tasks, named MambaMIC. Specifically, we introduce a Local-Global dual-branch aggregation module: the MambaMIC Block, designed to effectively capture and fuse local connectivity and global dependencies. In the local branch, we use local convolutions to capture pixel similarity, mitigating local pixel forgetting and enhancing perception. In the global branch, SSM extracts global dependencies, while Locally Aware Enhanced Filter reduces channel redundancy and local pixel forgetting. Additionally, we design a Feature Modulation Interaction Aggregation Module for deep feature interaction and key feature re-localization. Extensive benchmarking shows that MambaMIC achieves state-of-the-art performance across five datasets. code is available at https://zs1314.github.io/MambaMIC