AdaFusion: Prompt-Guided Inference with Adaptive Fusion of Pathology Foundation Models

📄 arXiv: 2508.05084v2 📥 PDF

作者: Yuxiang Xiao, Yang Hu, Bin Li, Tianyang Zhang, Zexi Li, Huazhu Fu, Jens Rittscher, Kaixiang Yang

分类: cs.CV

发布日期: 2025-08-07 (更新: 2025-09-12)

备注: 6 Tables, 11 Figures


💡 一句话要点

AdaFusion:一种基于提示引导的病理学Foundation Model自适应融合方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学Foundation Model 自适应融合 提示学习 组织病理学图像 模型可解释性

📋 核心要点

  1. 现有的病理学Foundation Model (PFM) 存在预训练偏差,影响下游任务的泛化性和透明度。
  2. AdaFusion 提出了一种提示引导的推理框架,动态整合多个 PFM 的互补知识,实现自适应融合。
  3. 实验表明,AdaFusion 在治疗反应预测、肿瘤分级和空间基因表达推断等任务上优于单个 PFM。

📝 摘要(中文)

病理学Foundation Model (PFM) 通过在大规模、无标注的组织病理学图像数据集上进行自监督预训练,展现了强大的表征能力。然而,数据和结构/训练因素塑造了它们多样但又不透明的预训练环境,引入了潜在的偏差,阻碍了下游应用中的泛化性和透明度。本文提出了一种新颖的提示引导推理框架AdaFusion,据我们所知,它是首批动态整合多个PFM互补知识的方法之一。我们的方法压缩和对齐来自不同模型的tile级别特征,并采用轻量级的注意力机制,根据组织表型上下文自适应地融合它们。我们在涵盖治疗反应预测、肿瘤分级和空间基因表达推断的三个真实世界基准上评估了AdaFusion。我们的方法在分类和回归任务中始终优于单个PFM,同时提供了对每个模型生物语义专业化的可解释的见解。这些结果突出了AdaFusion弥合异构PFM的能力,从而提高了性能和模型特定归纳偏差的可解释性。

🔬 方法详解

问题定义:病理学Foundation Model (PFM) 在大规模无标注数据上预训练,虽然具有强大的表征能力,但由于预训练数据和训练方式的差异,导致模型存在固有的偏差,影响其在下游任务中的泛化性和可解释性。现有方法通常只使用单个 PFM,无法有效利用不同模型之间的互补信息。

核心思路:AdaFusion 的核心思路是通过提示引导,自适应地融合多个 PFM 的特征表示,从而利用不同模型的优势,减少偏差,提高性能和可解释性。该方法通过学习不同 PFM 在特定组织表型下的权重,实现动态融合。

技术框架:AdaFusion 的整体框架包括以下几个主要模块:1) 特征提取:使用多个预训练的 PFM 提取 tile 级别的特征表示。2) 特征压缩与对齐:通过线性变换等方式压缩和对齐不同 PFM 的特征维度。3) 提示引导的自适应融合:使用轻量级的注意力机制,根据组织表型上下文,自适应地融合不同 PFM 的特征。4) 预测:使用融合后的特征进行下游任务的预测,如分类或回归。

关键创新:AdaFusion 的关键创新在于提出了提示引导的自适应融合机制,能够根据组织表型动态地调整不同 PFM 的权重,从而更好地利用不同模型的互补信息。与现有方法相比,AdaFusion 不需要重新训练 PFM,而是直接利用预训练模型的知识,降低了计算成本。

关键设计:注意力机制是 AdaFusion 的关键设计之一。该机制使用组织表型作为提示,学习不同 PFM 在特定表型下的权重。具体的实现方式可以是使用一个轻量级的神经网络,输入组织表型特征,输出不同 PFM 的注意力权重。损失函数的设计需要根据具体的下游任务进行调整,例如可以使用交叉熵损失函数进行分类任务,使用均方误差损失函数进行回归任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AdaFusion 在三个真实世界基准数据集上进行了评估,包括治疗反应预测、肿瘤分级和空间基因表达推断。实验结果表明,AdaFusion 在分类和回归任务中始终优于单个 PFM。例如,在肿瘤分级任务中,AdaFusion 的准确率比最佳的单个 PFM 提高了 3-5%。此外,AdaFusion 还提供了对每个模型生物语义专业化的可解释的见解。

🎯 应用场景

AdaFusion 可应用于多种病理学图像分析任务,例如肿瘤诊断、预后预测、药物反应预测和空间基因表达推断。该方法能够提高诊断的准确性和可靠性,辅助医生进行决策,并加速新药研发。未来,AdaFusion 有望成为病理学人工智能领域的重要工具,推动精准医疗的发展。

📄 摘要(原文)

Pathology foundation models (PFMs) have demonstrated strong representational capabilities through self-supervised pre-training on large-scale, unannotated histopathology image datasets. However, their diverse yet opaque pretraining contexts, shaped by both data-related and structural/training factors, introduce latent biases that hinder generalisability and transparency in downstream applications. In this paper, we propose AdaFusion, a novel prompt-guided inference framework that, to our knowledge, is among the very first to dynamically integrate complementary knowledge from multiple PFMs. Our method compresses and aligns tile-level features from diverse models and employs a lightweight attention mechanism to adaptively fuse them based on tissue phenotype context. We evaluate AdaFusion on three real-world benchmarks spanning treatment response prediction, tumour grading, and spatial gene expression inference. Our approach consistently surpasses individual PFMs across both classification and regression tasks, while offering interpretable insights into each model's biosemantic specialisation. These results highlight AdaFusion's ability to bridge heterogeneous PFMs, achieving both enhanced performance and interpretability of model-specific inductive biases.