Information-driven Fusion of Pathology Foundation Models for Enhanced Disease Characterization

📄 arXiv: 2512.11104v1 📥 PDF

作者: Brennan Flannery, Thomas DeSilvio, Jane Nguyen, Satish E. Viswanath

分类: cs.CV

发布日期: 2025-12-11

备注: 29 Pages, 10 figures


💡 一句话要点

提出基于信息驱动的病理学Foundation Model融合方法,提升疾病表征能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学 Foundation Model 特征融合 相关性分析 癌症分级 疾病分期 计算病理学 智能诊断

📋 核心要点

  1. 现有病理学Foundation Model (FM) 之间存在冗余,且缺乏对其互补信息的有效利用,限制了性能。
  2. 提出一种信息驱动的智能融合策略,通过相关性引导的特征修剪,集成多个FM的优势,减少冗余信息。
  3. 实验表明,该方法在肾脏、前列腺和直肠癌的分级和分期任务中,均优于单一FM和朴素融合方法。

📝 摘要(中文)

Foundation Model (FM) 在多种病理学任务中表现出强大的性能。尽管FM的预训练目标存在相似性,但对其互补性、嵌入空间中的冗余性或特征的生物学解释的理解仍然有限。本研究提出了一种信息驱动的智能融合策略,用于将多个病理学FM集成到统一的表示中,并系统地评估其在三种不同癌症的分级和分期方面的性能。来自肾脏(519张切片)、前列腺(490张切片)和直肠(200张切片)癌的诊断性H&E全切片图像被二分为低级别与高级别或分期。考虑了切片级别的FM(Conch v1.5、MUSK、Virchow2、H-Optimus1、Prov-Gigapath)和切片级别的FM(TITAN、CHIEF、MADELEINE)来训练下游分类器。然后,我们评估了切片和切片级别的三种FM融合方案:多数投票集成、朴素特征连接以及基于相关性引导的冗余特征修剪的智能融合。在具有留出测试的患者分层交叉验证下,与最佳单个FM和朴素融合相比,切片级别嵌入的智能融合在所有三种癌症中均产生了持续的分类性能提升。全局相似性指标显示FM嵌入空间具有显着对齐,但局部邻域一致性较低,表明FM之间存在互补的细粒度信息。注意力图显示,智能融合产生了对肿瘤区域的集中关注,同时减少了对良性区域的虚假关注。我们的研究结果表明,病理学FM的智能、相关性引导的融合可以产生紧凑的、任务定制的表示,从而提高下游计算病理学任务中的预测性能和可解释性。

🔬 方法详解

问题定义:论文旨在解决如何有效融合多个病理学Foundation Model (FM) 的问题,以提升疾病表征和预测性能。现有方法,如多数投票和简单特征拼接,无法充分利用FM之间的互补信息,同时忽略了FM嵌入空间中的冗余性,导致性能提升有限。

核心思路:论文的核心思路是利用FM嵌入空间的相关性信息,通过相关性引导的特征修剪,实现FM的智能融合。这种方法旨在保留FM之间的互补信息,同时消除冗余信息,从而获得更紧凑、更具判别性的特征表示。

技术框架:整体框架包括以下几个主要阶段:1) 使用多个tile-level和slide-level的病理学FM提取特征;2) 对提取的特征进行相关性分析,识别冗余特征;3) 基于相关性信息,进行特征修剪,保留互补性强的特征;4) 使用修剪后的特征训练下游分类器,进行疾病分级和分期预测。

关键创新:最重要的技术创新点是提出了相关性引导的特征修剪策略。与传统的特征选择方法不同,该方法不仅考虑了单个特征的重要性,还考虑了特征之间的相关性,从而能够更有效地消除冗余信息,保留互补信息。

关键设计:关键设计包括:1) 使用皮尔逊相关系数衡量特征之间的相关性;2) 设置相关性阈值,用于判断特征是否冗余;3) 使用患者分层交叉验证,保证实验结果的可靠性;4) 使用注意力图可视化融合后的特征,验证其对肿瘤区域的关注。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在肾脏、前列腺和直肠癌的分级和分期任务中,智能融合方法均优于最佳单一FM和朴素融合方法。具体而言,智能融合方法在所有三种癌症中均产生了持续的分类性能提升,并且注意力图显示,智能融合产生了对肿瘤区域的集中关注,同时减少了对良性区域的虚假关注。

🎯 应用场景

该研究成果可应用于辅助病理诊断,提升癌症分级和分期的准确性,辅助医生制定更精准的治疗方案。此外,该方法也可推广到其他医学图像分析任务,例如病灶检测、疾病预测等,具有广阔的应用前景和临床价值。

📄 摘要(原文)

Foundation models (FMs) have demonstrated strong performance across diverse pathology tasks. While there are similarities in the pre-training objectives of FMs, there is still limited understanding of their complementarity, redundancy in embedding spaces, or biological interpretation of features. In this study, we propose an information-driven, intelligent fusion strategy for integrating multiple pathology FMs into a unified representation and systematically evaluate its performance for cancer grading and staging across three distinct diseases. Diagnostic H&E whole-slide images from kidney (519 slides), prostate (490 slides), and rectal (200 slides) cancers were dichotomized into low versus high grade or stage. Both tile-level FMs (Conch v1.5, MUSK, Virchow2, H-Optimus1, Prov-Gigapath) and slide-level FMs (TITAN, CHIEF, MADELEINE) were considered to train downstream classifiers. We then evaluated three FM fusion schemes at both tile and slide levels: majority-vote ensembling, naive feature concatenation, and intelligent fusion based on correlation-guided pruning of redundant features. Under patient-stratified cross-validation with hold-out testing, intelligent fusion of tile-level embeddings yielded consistent gains in classification performance across all three cancers compared with the best single FMs and naive fusion. Global similarity metrics revealed substantial alignment of FM embedding spaces, contrasted by lower local neighborhood agreement, indicating complementary fine-grained information across FMs. Attention maps showed that intelligent fusion yielded concentrated attention on tumor regions while reducing spurious focus on benign regions. Our findings suggest that intelligent, correlation-guided fusion of pathology FMs can yield compact, task-tailored representations that enhance both predictive performance and interpretability in downstream computational pathology tasks.