GAS-MIL: Group-Aggregative Selection Multi-Instance Learning for Ensemble of Foundation Models in Digital Pathology Image Analysis
作者: Peiran Quan, Zifan Gu, Zhuo Zhao, Qin Zhou, Donghan M. Yang, Ruichen Rong, Yang Xie, Guanghua Xiao
分类: cs.CV, cs.AI
发布日期: 2025-10-03
💡 一句话要点
提出GAS-MIL框架,用于数字病理图像分析中集成多个预训练模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多示例学习 预训练模型 数字病理图像 集成学习 癌症诊断
📋 核心要点
- 现有方法难以高效地将多个预训练模型集成到病理图像分析中,需要大量时间和资源进行特征选择和微调。
- GAS-MIL框架通过分组聚合选择机制,自动学习并融合多个预训练模型的互补特征,无需手动干预。
- 在三个癌症数据集上的实验表明,GAS-MIL的性能优于或等同于单独的预训练模型和传统MIL方法,具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种名为Group-Aggregative Selection Multi-Instance Learning (GAS-MIL) 的灵活集成框架,旨在无缝集成多个预训练模型(FMs)的特征,从而保留它们的互补优势,而无需手动特征选择或大量的特定任务微调。该框架应用于前列腺癌(PANDA)、卵巢癌(UBC-OCEAN)和乳腺癌(TCGA-BrCa)三个癌症数据集的分类任务,实验结果表明,相对于单个预训练模型和已建立的多示例学习(MIL)方法,GAS-MIL始终能够实现优越或相当的性能,证明了其鲁棒性和泛化性。GAS-MIL通过有效集成异构预训练模型,简化了病理学模型部署,并为未来的多模态和精准肿瘤学应用提供了可扩展的基础。
🔬 方法详解
问题定义:数字病理图像分析中,如何高效利用多个预训练模型(Foundation Models, FMs)的强大特征提取能力是一个关键问题。现有方法通常需要针对特定任务对单个FM进行微调,或者进行手动特征选择和组合,这既耗时又耗费资源,并且难以充分利用不同FM的互补优势。
核心思路:GAS-MIL的核心思路是通过多示例学习(MIL)框架,将每个病理图像视为一个“包”(bag),其中包含多个图像切片(instances)。GAS-MIL自动学习每个FM在不同图像切片上的贡献,并选择性地聚合来自不同FM的特征,从而实现对多个FM的有效集成。这种方法避免了手动特征选择和大量的任务特定微调。
技术框架:GAS-MIL框架主要包含以下几个模块:1) 特征提取模块:使用多个预训练模型(FMs)提取每个图像切片的特征。2) 分组聚合模块:将来自不同FM的特征进行分组,并使用注意力机制学习每个组的重要性。3) 选择模块:基于分组聚合的结果,选择对最终分类贡献最大的特征。4) 分类模块:使用选择后的特征进行分类。
关键创新:GAS-MIL的关键创新在于其分组聚合选择机制。该机制能够自动学习每个FM在不同图像切片上的贡献,并选择性地聚合来自不同FM的特征。与传统的MIL方法相比,GAS-MIL能够更好地利用多个FM的互补优势,从而提高分类性能。与手动特征选择方法相比,GAS-MIL能够自动学习特征的重要性,从而节省大量时间和资源。
关键设计:GAS-MIL的关键设计包括:1) 使用注意力机制学习每个分组的重要性,从而实现对不同FM的自适应加权。2) 使用Gated Attention机制来选择对最终分类贡献最大的特征。3) 损失函数采用标准的交叉熵损失函数,用于训练分类器。
📊 实验亮点
实验结果表明,GAS-MIL在三个癌症数据集(PANDA、UBC-OCEAN和TCGA-BrCa)上均取得了优异的性能。例如,在PANDA数据集上,GAS-MIL的AUC值显著高于单个预训练模型和传统的MIL方法。此外,GAS-MIL还具有良好的泛化能力,能够在不同的数据集上保持稳定的性能。
🎯 应用场景
GAS-MIL框架可广泛应用于数字病理图像分析领域,例如癌症诊断、预后预测和治疗方案选择。该框架能够有效集成多个预训练模型的特征,提高诊断准确率和效率,并为未来的多模态病理图像分析和精准肿瘤学应用提供基础。此外,该方法也适用于其他医学图像分析任务,具有广阔的应用前景。
📄 摘要(原文)
Foundation models (FMs) have transformed computational pathology by providing powerful, general-purpose feature extractors. However, adapting and benchmarking individual FMs for specific diagnostic tasks is often time-consuming and resource-intensive, especially given their scale and diversity. To address this challenge, we introduce Group-Aggregative Selection Multi-Instance Learning (GAS-MIL), a flexible ensemble framework that seamlessly integrates features from multiple FMs, preserving their complementary strengths without requiring manual feature selection or extensive task-specific fine-tuning. Across classification tasks in three cancer datasets-prostate (PANDA), ovarian (UBC-OCEAN), and breast (TCGA-BrCa)-GAS-MIL consistently achieves superior or on-par performance relative to individual FMs and established MIL methods, demonstrating its robustness and generalizability. By enabling efficient integration of heterogeneous FMs, GAS-MIL streamlines model deployment for pathology and provides a scalable foundation for future multimodal and precision oncology applications.