Vision Mamba for Classification of Breast Ultrasound Images
作者: Ali Nasiri-Sarvi, Mahdi S. Hosseini, Hassan Rivaz
分类: cs.CV
发布日期: 2024-07-04 (更新: 2024-09-17)
备注: Accepted in MICCAI 2024 Deep-Breath workshop
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于Mamba的视觉模型,提升乳腺超声图像分类性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Mamba 乳腺超声图像分类 深度学习 长程依赖 医学图像分析
📋 核心要点
- 现有CNN和ViT模型在处理乳腺超声图像分类任务时,可能无法有效捕捉长程依赖关系,限制了性能。
- 论文探索了基于Mamba架构的视觉模型,旨在有效捕获图像中的长程依赖,同时保持一定的归纳偏置。
- 实验结果表明,在乳腺超声数据集上,Mamba模型在分类准确率和AUC等指标上优于传统CNN和ViT模型。
📝 摘要(中文)
本文评估了基于Mamba的视觉编码器(VMamba和Vim)在乳腺超声图像分类任务中的性能,并与传统的卷积神经网络(CNN)和视觉Transformer(ViT)进行了比较。实验使用了BUSI数据集和Breast Ultrasound B数据集,通过多次实验和统计显著性分析表明,某些Mamba架构在性能上优于CNN和ViT模型,并具有统计学意义。例如,在B数据集中,最佳Mamba模型的平均AUC和平均准确率比研究中最佳的非Mamba模型分别提高了1.98%和5.0%。这些Mamba模型能够有效地捕获长程依赖关系,同时保持一定的归纳偏置,使其适用于数据有限的应用。代码已开源。
🔬 方法详解
问题定义:论文旨在解决乳腺超声图像分类问题。现有方法,如CNN和ViT,在处理此类图像时,可能无法充分捕捉图像中的全局上下文信息,即长程依赖关系。此外,在数据量有限的情况下,ViT模型容易过拟合,而CNN模型的感受野有限,难以捕捉全局信息。
核心思路:论文的核心思路是利用Mamba架构的优势,Mamba模型通过选择性状态空间模型(Selective State Space Model, S6)能够有效地建模序列数据中的长程依赖关系,并且具有线性复杂度,从而在计算效率和性能之间取得平衡。将Mamba应用于视觉任务,旨在克服CNN和ViT的局限性,提高乳腺超声图像分类的准确性。
技术框架:论文采用了两种基于Mamba的视觉模型:VMamba和Vim。这些模型通常包含以下几个主要模块:Patch Embedding(将图像分割成patch并嵌入到高维空间)、Mamba Blocks(核心的长程依赖建模模块)、以及分类头(用于最终的分类预测)。整体流程是将输入的乳腺超声图像经过Patch Embedding后,送入多个Mamba Blocks进行特征提取,最后通过分类头得到分类结果。
关键创新:论文的关键创新在于将Mamba架构成功应用于乳腺超声图像分类任务。与传统的CNN和ViT相比,Mamba模型能够更有效地捕捉图像中的长程依赖关系,并且在数据量有限的情况下表现出更好的泛化能力。Mamba的选择性状态空间机制允许模型根据输入动态地调整其状态,从而更好地适应不同的图像特征。
关键设计:论文中可能涉及的关键设计包括:Mamba Blocks的具体结构(例如,层数、通道数等)、Patch Embedding的大小、以及分类头的选择。此外,损失函数的选择和优化器的设置也会影响模型的性能。具体的参数设置和网络结构可能在论文的实验部分详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于Mamba的模型在Breast Ultrasound B数据集上,相比于最佳的非Mamba模型,平均AUC提升了1.98%,平均准确率提升了5.0%。这些结果表明,Mamba模型在乳腺超声图像分类任务中具有显著的优势,能够有效地提高分类性能。统计显著性分析进一步验证了Mamba模型的优越性。
🎯 应用场景
该研究成果可应用于乳腺癌的辅助诊断,帮助医生更准确地识别病灶,提高诊断效率和准确性。此外,该方法还可以推广到其他医学图像分析任务中,例如肺结节检测、脑肿瘤分割等,具有广泛的应用前景和临床价值。未来,可以进一步研究如何将Mamba模型与其他模态的信息融合,例如基因组数据、病理图像等,以实现更全面的诊断。
📄 摘要(原文)
Mamba-based models, VMamba and Vim, are a recent family of vision encoders that offer promising performance improvements in many computer vision tasks. This paper compares Mamba-based models with traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) using the breast ultrasound BUSI dataset and Breast Ultrasound B dataset. Our evaluation, which includes multiple runs of experiments and statistical significance analysis, demonstrates that some of the Mamba-based architectures often outperform CNN and ViT models with statistically significant results. For example, in the B dataset, the best Mamba-based models have a 1.98\% average AUC and a 5.0\% average Accuracy improvement compared to the best non-Mamba-based model in this study. These Mamba-based models effectively capture long-range dependencies while maintaining some inductive biases, making them suitable for applications with limited data. The code is available at \url{https://github.com/anasiri/BU-Mamba}