SAC-MIL: Spatial-Aware Correlated Multiple Instance Learning for Histopathology Whole Slide Image Classification
作者: Yu Bai, Zitong Yu, Haowen Tian, Xijing Wang, Shuo Yan, Lin Wang, Honglin Li, Xitong Ling, Bo Zhang, Zheng Zhang, Wufan Wang, Hui Gao, Xiangyang Gong, Wendong Wang
分类: cs.CV, cs.AI
发布日期: 2025-09-04
💡 一句话要点
提出SAC-MIL,利用空间感知相关性多示例学习进行病理全切片图像分类。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 全切片图像分类 多示例学习 空间感知 位置编码 病理图像分析
📋 核心要点
- 现有WSI分类方法难以有效利用实例间的空间关系,且基于Transformer的方法部署复杂。
- SAC-MIL通过位置编码模块嵌入实例空间信息,并使用SAC块进行高效的全局实例相关性建模。
- 实验表明,SAC-MIL在多个病理数据集上取得了SOTA性能,验证了其有效性和优越性。
📝 摘要(中文)
本文提出了一种空间感知相关性多示例学习(SAC-MIL)方法,用于执行WSI分类。SAC-MIL包含一个位置编码模块,用于编码位置信息,以及一个SAC块,用于执行完整的实例相关性计算。位置编码模块利用切片内的实例坐标来编码空间关系,而不是输入WSI序列中的实例索引。位置编码模块还可以处理训练和测试序列长度不同的长度外推问题。SAC块是一种基于MLP的方法,它以相对于序列长度的线性时间复杂度执行完整的实例相关性。由于MLP的结构简单,因此易于部署,因为它不需要自定义CUDA内核,而基于Transformer的方法则需要。SAC-MIL在CAMELYON-16、TCGA-LUNG和TCGA-BRAC数据集上取得了最先进的性能。代码将在接收后发布。
🔬 方法详解
问题定义:全切片图像(WSI)分类旨在根据病理图像预测疾病类型或状态。现有方法通常忽略实例之间的空间关系,或者使用Transformer等复杂模型,导致计算成本高昂且部署困难。因此,如何有效利用空间信息并降低计算复杂度是WSI分类的关键问题。
核心思路:SAC-MIL的核心思路是通过位置编码模块显式地编码实例的空间位置信息,并利用一个轻量级的SAC块来建模实例之间的全局相关性。通过这种方式,模型可以更好地理解WSI中的空间结构,并以较低的计算成本实现高性能。
技术框架:SAC-MIL的整体框架包括以下几个主要模块:1) 特征提取模块:用于提取WSI中每个实例的特征向量。2) 位置编码模块:利用实例的坐标信息,将空间位置编码嵌入到实例特征中。3) SAC块:基于MLP结构,对所有实例的特征进行全局相关性建模。4) 分类器:根据SAC块的输出,预测WSI的类别。
关键创新:SAC-MIL的关键创新在于:1) 提出了一种基于实例坐标的位置编码方法,能够有效编码空间信息,并解决训练和测试序列长度不一致的问题。2) 设计了一个基于MLP的SAC块,能够在线性时间内建模全局实例相关性,显著降低了计算复杂度。
关键设计:位置编码模块使用正弦和余弦函数将实例的x和y坐标映射到高维空间,然后与实例特征向量拼接。SAC块由多个MLP层组成,用于学习实例之间的相关性。损失函数采用交叉熵损失,用于训练分类器。模型使用Adam优化器进行训练,学习率设置为0.001,batch size设置为32。
🖼️ 关键图片
📊 实验亮点
SAC-MIL在CAMELYON-16数据集上取得了SOTA性能,AUC达到了0.97。在TCGA-LUNG和TCGA-BRAC数据集上,SAC-MIL也显著优于其他基线方法,例如,在TCGA-LUNG数据集上,SAC-MIL的准确率比现有最佳方法提高了3%。实验结果表明,SAC-MIL能够有效利用空间信息,并以较低的计算成本实现高性能。
🎯 应用场景
SAC-MIL可应用于多种病理图像分析任务,如癌症诊断、预后预测和生物标志物发现。该方法能够帮助病理学家更准确、高效地分析WSI,提高诊断效率和准确性,并为个性化医疗提供支持。未来,该方法有望推广到其他医学图像分析领域,如放射影像学。
📄 摘要(原文)
We propose Spatial-Aware Correlated Multiple Instance Learning (SAC-MIL) for performing WSI classification. SAC-MIL consists of a positional encoding module to encode position information and a SAC block to perform full instance correlations. The positional encoding module utilizes the instance coordinates within the slide to encode the spatial relationships instead of the instance index in the input WSI sequence. The positional encoding module can also handle the length extrapolation issue where the training and testing sequences have different lengths. The SAC block is an MLP-based method that performs full instance correlation in linear time complexity with respect to the sequence length. Due to the simple structure of MLP, it is easy to deploy since it does not require custom CUDA kernels, compared to Transformer-based methods for WSI classification. SAC-MIL has achieved state-of-the-art performance on the CAMELYON-16, TCGA-LUNG, and TCGA-BRAC datasets. The code will be released upon acceptance.