Attention-based multiple instance learning for predominant growth pattern prediction in lung adenocarcinoma wsi using foundation models
作者: Laura Valeria Perez-Herrera, M. J. Garcia-Gonzalez, Karen Lopez-Linares
分类: cs.CV, cs.AI
发布日期: 2026-04-23
💡 一句话要点
提出基于注意力的多实例学习框架以预测肺腺癌生长模式
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 肺腺癌 多实例学习 注意力机制 深度学习 医学影像分析 病理模型 生长模式预测
📋 核心要点
- 现有的深度学习方法在肺腺癌生长模式预测中依赖补丁级别的分类或分割,需大量标注,导致标注负担重。
- 本文提出基于注意力的多实例学习(ABMIL)框架,通过全幻灯片级别的预测来减少标注需求,集成预训练的病理模型作为补丁编码器。
- 实验结果显示,微调编码器显著提高了预测性能,Prov-GigaPath在ABMIL下达成最高一致性(κ = 0.699),优于传统补丁聚合方法。
📝 摘要(中文)
肺腺癌(LUAD)的分级依赖于准确识别生长模式,这些模式是预后指标并能影响治疗决策。现有的深度学习方法通常依赖于补丁级分类或分割,需大量标注。本文提出了一种基于注意力的多实例学习(ABMIL)框架,以在全幻灯片级别预测LUAD的主要生长模式,从而减少标注负担。该方法集成了预训练的病理基础模型作为补丁编码器,使用冻结或微调的方式提取可区分特征,并通过注意力机制进行聚合。实验表明,微调编码器能提高性能,Prov-GigaPath在ABMIL下达成最高一致性(κ = 0.699)。与简单的补丁聚合基线相比,ABMIL通过利用幻灯片级监督和空间注意力,提供了更稳健的预测。未来的工作将扩展该框架以估计生长模式的完整分布,并在外部队列上验证性能。
🔬 方法详解
问题定义:本文旨在解决肺腺癌生长模式预测中的标注负担问题。现有方法通常依赖于补丁级分类或分割,需大量人工标注,限制了其应用。
核心思路:提出基于注意力的多实例学习(ABMIL)框架,通过全幻灯片级别的预测来减少对补丁级标注的依赖,利用预训练的病理模型提取特征并进行聚合。
技术框架:该框架包括补丁编码器(可选择冻结或微调)、注意力机制用于特征聚合,以及最终的全幻灯片级预测模块。通过这种结构,模型能够有效利用全局信息。
关键创新:最重要的创新在于引入了注意力机制和多实例学习的结合,使得模型能够在全幻灯片级别上进行预测,显著提高了预测的稳健性和准确性。
关键设计:在技术细节上,使用了预训练的病理基础模型作为补丁编码器,微调策略显著提升了性能,损失函数设计上采用了适合多实例学习的策略,以优化模型的学习过程。
📊 实验亮点
实验结果显示,微调的编码器在ABMIL框架下达成了最高一致性(κ = 0.699),相比于简单的补丁聚合基线,ABMIL显著提高了预测的稳健性,展示了空间注意力和幻灯片级监督的优势。
🎯 应用场景
该研究的潜在应用领域包括医学影像分析、肿瘤诊断和个性化治疗方案制定。通过减少标注需求,ABMIL框架能够加速肺腺癌的临床研究和应用,提升病理学家的工作效率,未来可能扩展至其他类型的肿瘤预测。
📄 摘要(原文)
Lung adenocarcinoma (LUAD) grading depends on accurately identifying growth patterns, which are indicators of prognosis and can influence treatment decisions. Common deep learning approaches to determine the predominant pattern rely on patch-level classification or segmentation, requiring extensive annotations. This study proposes an attention-based multiple instance learning (ABMIL) framework to predict the predominant LUAD growth pattern at the whole slide level to reduce annotation burden. Our approach integrates pretrained pathology foundation models as patch encoders, used either frozen or fine-tuned on annotated patches, to extract discriminative features that are aggregated through attention mechanisms. Experiments show that fine-tuned encoders improve performance, with Prov-GigaPath achieving the highest agreement (\k{appa} = 0.699) under ABMIL. Compared to simple patch-aggregation baselines, ABMIL yields more robust predictions by leveraging slide-level supervision and spatial attention. Future work will extend this framework to estimate the full distribution of growth patterns and validate performance on external cohorts.