Adapting a Segmentation Foundation Model for Medical Image Classification

作者: Pengfei Gu, Haoteng Tang, Islam A. Ebeid, Jose A. Nunez, Fabian Vazquez, Diego Adame, Marcus Zhan, Huimin Li, Bin Fu, Danny Z. Chen

分类: cs.CV

发布日期: 2025-05-09

💡 一句话要点

提出一种基于SAM的医学图像分类框架，利用空间局部通道注意力提升性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学图像分类 分割基础模型 SAM 空间注意力机制 深度学习 特征提取 数据效率

📋 核心要点

医学图像分类任务中，如何有效利用预训练的分割模型是一个挑战。
该方法利用SAM的图像编码器提取特征，并引入空间局部通道注意力机制。
实验表明，该方法在医学图像分类任务上表现出良好的性能和数据效率。

📝 摘要（中文）

本文提出了一种新的框架，用于将分割基础模型SAM应用于医学图像分类任务。该框架利用SAM的图像编码器作为特征提取器，提取基于分割的特征，这些特征能够捕捉图像重要的空间和上下文细节，同时冻结其权重以避免训练期间不必要的开销。此外，本文还提出了一种新颖的空间局部通道注意力（SLCA）机制，用于计算特征图的空间局部注意力权重。从SAM图像编码器提取的特征通过SLCA处理以计算注意力权重，然后将其集成到深度学习分类模型中，以增强模型对图像空间相关或有意义区域的关注，从而提高分类性能。在三个公共医学图像分类数据集上的实验结果证明了该方法的有效性和数据效率。

🔬 方法详解

问题定义：医学图像分类旨在根据医学图像的内容，例如X光片、CT扫描等，将图像划分到不同的类别。现有的方法通常从头训练深度学习模型，或者使用在ImageNet等自然图像数据集上预训练的模型进行微调。然而，这些方法可能无法充分利用医学图像中丰富的空间和上下文信息，并且需要大量的标注数据进行训练。

核心思路：本文的核心思路是利用预训练的分割模型SAM的强大特征提取能力，特别是其对图像空间信息的理解能力，来提升医学图像分类的性能。通过将SAM的图像编码器作为特征提取器，可以有效地捕捉图像中的空间和上下文细节。此外，引入空间局部通道注意力机制，可以使模型更加关注图像中与分类任务相关的区域。

技术框架：该框架主要包含两个阶段：特征提取和分类。首先，使用SAM的图像编码器提取医学图像的特征，并冻结其权重。然后，将提取的特征输入到空间局部通道注意力（SLCA）模块，计算每个特征图的空间局部注意力权重。最后，将带有注意力权重的特征输入到深度学习分类模型中进行分类。

关键创新：本文的关键创新在于提出了空间局部通道注意力（SLCA）机制。与传统的通道注意力机制不同，SLCA能够计算每个特征图的空间局部注意力权重，从而使模型更加关注图像中与分类任务相关的区域。这种空间局部注意力机制能够更好地利用医学图像中的空间信息，提升分类性能。

关键设计：SAM的图像编码器使用ViT-H架构，冻结其权重以避免训练开销。SLCA模块包含卷积层、ReLU激活函数和Sigmoid激活函数，用于计算空间局部注意力权重。分类模型可以使用ResNet、DenseNet等常用的深度学习网络。损失函数使用交叉熵损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在三个公共医学图像分类数据集上均取得了良好的性能。例如，在ChestX-ray14数据集上，该方法取得了与现有方法相当甚至更好的性能，同时具有更高的数据效率。此外，消融实验验证了SLCA模块的有效性，表明其能够显著提升分类性能。

🎯 应用场景

该研究成果可应用于多种医学图像分类任务，例如疾病诊断、病灶检测、图像质量评估等。通过利用预训练的分割模型和空间局部注意力机制，可以提高医学图像分类的准确性和效率，辅助医生进行诊断和治疗决策，具有重要的临床应用价值和潜在的社会效益。

📄 摘要（原文）

Recent advancements in foundation models, such as the Segment Anything Model (SAM), have shown strong performance in various vision tasks, particularly image segmentation, due to their impressive zero-shot segmentation capabilities. However, effectively adapting such models for medical image classification is still a less explored topic. In this paper, we introduce a new framework to adapt SAM for medical image classification. First, we utilize the SAM image encoder as a feature extractor to capture segmentation-based features that convey important spatial and contextual details of the image, while freezing its weights to avoid unnecessary overhead during training. Next, we propose a novel Spatially Localized Channel Attention (SLCA) mechanism to compute spatially localized attention weights for the feature maps. The features extracted from SAM's image encoder are processed through SLCA to compute attention weights, which are then integrated into deep learning classification models to enhance their focus on spatially relevant or meaningful regions of the image, thus improving classification performance. Experimental results on three public medical image classification datasets demonstrate the effectiveness and data-efficiency of our approach.

Adapting a Segmentation Foundation Model for Medical Image Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理