Plug-and-Play Logit Fusion for Heterogeneous Pathology Foundation Models

📄 arXiv: 2604.07779v1 📥 PDF

作者: Gexin Huang, Anqi Li, Yusheng Tan, Beidi Zhao, Gang Wang, Gaozu Hua, Xiaoxiao Li

分类: cs.CV

发布日期: 2026-04-09

备注: 10 pages, 2 figures


💡 一句话要点

提出LogitProd,一种即插即用的病理学Foundation Model Logit融合方法,提升下游任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学 Foundation Model 模型融合 Logits融合 迁移学习

📋 核心要点

  1. 现有病理学Foundation Model选择困难,没有单一模型在所有任务上都最优,且逐一验证成本高昂。
  2. LogitProd通过学习样本自适应的logits融合权重,将多个独立训练的FM预测器进行有效集成。
  3. 实验表明,LogitProd在22个病理学任务中,有20个任务排名第一,平均性能比最佳单一模型提升约3%。

📝 摘要(中文)

病理学Foundation Model (FM) 已成为计算病理学的核心,在各种诊断和预后任务中表现出强大的迁移性能。病理学FM的快速发展带来模型选择瓶颈:没有单一模型始终最优,但为每个下游任务穷尽式地适配和验证多个候选模型成本过高。本文提出一种轻量级且新颖的模型融合策略LogitProd,将独立训练的基于FM的预测器视为固定的专家,并学习样本自适应的融合权重,作用于它们的切片级别输出。该融合完全在logits上操作,无需编码器再训练,也无需跨异构骨干网络进行特征空间对齐。理论分析表明,最优加权乘积融合保证至少与训练目标下最佳的单个专家表现一样好。在涵盖WSI级别分类、tile级别分类、基因突变预测和离散时间生存建模的22个基准上系统地评估LogitProd。LogitProd在20/22个任务中排名第一,并且在所有任务上的平均性能比最强的单个专家提高了约3%。LogitProd使从业者能够以即插即用的方式升级异构的基于FM的pipeline,以比特征融合替代方案低约12倍的训练成本实现多专家增益。

🔬 方法详解

问题定义:病理学领域涌现了大量Foundation Model,但没有一个模型在所有下游任务中都表现最佳。为每个任务选择合适的模型或组合多个模型成为难题,现有方法如特征融合需要大量的训练和对齐,成本高昂。因此,需要一种轻量级、高效的模型融合方法,能够充分利用现有模型的优势,提升下游任务的性能。

核心思路:LogitProd的核心思路是将多个预训练好的Foundation Model视为“专家”,通过学习一个融合权重,对它们的logits输出进行加权融合。这种方法避免了对底层特征进行操作,从而无需重新训练编码器或进行特征空间对齐,大大降低了计算成本。同时,通过样本自适应的权重学习,能够根据不同样本的特点,动态地调整各个专家的贡献,从而实现更好的性能。

技术框架:LogitProd的整体框架包括以下几个步骤:1) 使用多个预训练的Foundation Model对输入样本进行预测,得到logits输出;2) 使用一个可学习的权重向量,对每个模型的logits输出进行加权;3) 将加权后的logits进行乘积融合,得到最终的预测结果;4) 使用交叉熵损失函数或其他合适的损失函数,对融合权重进行训练。

关键创新:LogitProd的关键创新在于其在logits层面进行融合,避免了对底层特征的直接操作。这使得它可以轻松地集成来自不同架构、不同训练数据的Foundation Model,而无需进行复杂的特征对齐或重新训练。此外,LogitProd使用乘积融合的方式,能够更好地利用各个模型的互补信息,从而实现更好的性能。

关键设计:LogitProd的关键设计包括:1) 使用可学习的权重向量,实现样本自适应的融合;2) 使用乘积融合,更好地利用模型间的互补信息;3) 使用logits作为融合对象,避免了特征对齐和重新训练的需要。损失函数通常选择交叉熵损失,优化器可以选择Adam等常用优化器。权重的初始化也很重要,可以采用均匀分布或高斯分布进行初始化。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

LogitProd在22个病理学基准测试中,有20个任务取得了最佳性能,平均性能比最强的单一模型提升了约3%。与特征融合方法相比,LogitProd的训练成本降低了约12倍。这些结果表明,LogitProd是一种高效且有效的模型融合方法,能够显著提升病理学Foundation Model的性能。

🎯 应用场景

LogitProd可广泛应用于计算病理学领域,例如癌症诊断、预后预测、基因突变预测等。它可以帮助医生更准确地分析病理图像,提高诊断效率和准确性。此外,LogitProd还可以用于开发新的病理学AI辅助诊断系统,为临床决策提供更可靠的依据,并加速新药研发。

📄 摘要(原文)

Pathology foundation models (FMs) have become central to computational histopathology, offering strong transfer performance across a wide range of diagnostic and prognostic tasks. The rapid proliferation of pathology foundation models creates a model-selection bottleneck: no single model is uniformly best, yet exhaustively adapting and validating many candidates for each downstream endpoint is prohibitively expensive. We address this challenge with a lightweight and novel model fusion strategy, LogitProd, which treats independently trained FM-based predictors as fixed experts and learns sample-adaptive fusion weights over their slide-level outputs. The fusion operates purely on logits, requiring no encoder retraining and no feature-space alignment across heterogeneous backbones. We further provide a theoretical analysis showing that the optimal weighted product fusion is guaranteed to perform at least as well as the best individual expert under the training objective. We systematically evaluate LogitProd on \textbf{22} benchmarks spanning WSI-level classification, tile-level classification, gene mutation prediction, and discrete-time survival modeling. LogitProd ranks first on 20/22 tasks and improves the average performance across all tasks by ~3% over the strongest single expert. LogitProd enables practitioners to upgrade heterogeneous FM-based pipelines in a plug-and-play manner, achieving multi-expert gains with $\sim$12$\times$ lower training cost than feature-fusion alternatives.