Streamline pathology foundation model by cross-magnification distillation

📄 arXiv: 2509.23097v2 📥 PDF

作者: Ziyu Su, Abdul Rehman Akbar, Usama Sajjad, Anil V. Parwani, Muhammad Khalid Khan Niazi

分类: cs.CV

发布日期: 2025-09-27 (更新: 2025-10-01)


💡 一句话要点

提出XMAG,通过跨倍率蒸馏构建轻量级病理学基础模型,加速临床部署。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学 基础模型 跨倍率蒸馏 知识迁移 轻量级模型

📋 核心要点

  1. 现有病理学基础模型参数量巨大,且依赖高倍率图像,计算成本高昂,限制了临床部署。
  2. XMAG通过跨倍率蒸馏,将高倍率教师模型的知识迁移到低倍率学生模型,显著降低计算需求。
  3. XMAG在多种病理学任务上取得了接近大型基础模型的性能,同时处理速度提升30倍。

📝 摘要(中文)

本文提出了一种轻量级病理学基础模型XMAG,它通过跨倍率蒸馏将最先进的20倍放大倍率教师模型的知识转移到高效的5倍放大倍率学生模型架构。XMAG采用紧凑的骨干网络,完全在5倍放大倍率下运行,与现有方法相比,每个全切片图像(WSI)所需的图像块减少了11.3倍。该蒸馏框架包含双层知识转移,对齐了全局图像表示和局部空间token映射。XMAG在从公开数据集整理的349万张图像上进行训练,并在涵盖多种癌症类型的六项临床相关组织病理学分析任务中评估了性能。XMAG实现了与更大的基础模型相差不到1%的诊断准确率,同时提供了30倍的处理加速,达到了每分钟处理8.8个WSI的速度。跨机构验证证实了其强大的泛化能力。此外,还开发了一种端到端训练策略,以进一步提高模型的性能,使其接近更大的基础模型的性能。这些结果表明,跨倍率蒸馏是部署资源受限临床环境中基础模型能力的可行方法,有可能实现实时病理学AI集成。

🔬 方法详解

问题定义:现有病理学基础模型虽然在计算病理学领域取得了显著进展,但其庞大的参数量和对高倍率图像的依赖导致计算成本过高,难以在资源受限的临床环境中部署和应用。现有方法在处理全切片图像时需要提取大量的图像块,计算复杂度高,处理速度慢。

核心思路:本文的核心思路是通过跨倍率蒸馏,将高倍率(20x)教师模型的知识迁移到低倍率(5x)学生模型。这样可以在保证性能的同时,显著减少计算量,提高处理速度。选择低倍率图像作为输入,减少了需要处理的图像块数量,从而降低了计算复杂度。

技术框架:XMAG的整体框架包括一个预训练好的高倍率教师模型和一个待训练的低倍率学生模型。蒸馏过程包含双层知识转移:首先,对齐全局图像表示,使学生模型学习教师模型的整体特征;其次,对齐局部空间token映射,使学生模型学习教师模型在局部区域的细粒度特征。通过这种方式,学生模型可以有效地从教师模型中学习知识,并在低倍率图像上实现高性能。

关键创新:XMAG的关键创新在于跨倍率蒸馏框架,它能够有效地将高倍率教师模型的知识迁移到低倍率学生模型。这种方法不仅降低了计算成本,还保持了较高的诊断准确率。双层知识转移策略也是一个创新点,它同时考虑了全局和局部特征的对齐,提高了蒸馏效果。

关键设计:XMAG采用紧凑的骨干网络作为学生模型,以进一步降低计算量。损失函数包括全局表示对齐损失和局部token映射对齐损失。全局表示对齐损失可以使用余弦相似度损失或均方误差损失。局部token映射对齐损失可以使用KL散度损失或交叉熵损失。具体的网络结构和参数设置需要根据具体的任务和数据集进行调整。端到端训练策略用于进一步提升模型性能,具体细节未知。

📊 实验亮点

XMAG在六项临床相关组织病理学分析任务中实现了与大型基础模型相差不到1%的诊断准确率,同时处理速度提升了30倍,达到了每分钟处理8.8个WSI的速度。跨机构验证证实了其强大的泛化能力。这些结果表明,XMAG在性能和效率方面都具有显著优势。

🎯 应用场景

XMAG的潜在应用领域包括实时病理诊断、远程病理会诊、病理图像分析辅助工具等。该研究的实际价值在于降低了病理学AI应用的计算成本,使其能够在资源受限的临床环境中部署,从而提高诊断效率和准确性。未来,XMAG可以与其他AI技术相结合,开发更智能化的病理诊断系统。

📄 摘要(原文)

Foundation models (FM) have transformed computational pathology but remain computationally prohibitive for clinical deployment due to their massive parameter counts and high-magnification processing requirements. Here, we introduce XMAG, a lightweight FM developed through corss-magnification distillation that transfers knowledge from state-of-the-art 20x magnification teacher to an efficient 5x magnification student architecture. XMAG employs a compact backbone and operates entirely at 5x, requiring 11.3 times fewer patches per whole slide image (WSI) compared to existing approaches. Our Novel distillation framework incorporates dual-level knowledge transfer, aligning both global image representations and local spatial token mapping. We trained XMAG on 3.49 million images curated from publicly available datasets and evaluated performance across six clinically relevant histopathology analysis tasks spanning multiple cancer types. XMAG achieved diagnostic accuracy within 1% of substantially larger foundation models while delivering 30-fold processing acceleration, reaching 8.8 WSIs per minute processing speed. Our cross-institutional validation confirmed robust generalization. Further, we developed an end-to-end training strategy to further boost our model's performance to approach the larger FMs' performance. These results establish cross-magnification distillation as a viable approach for deploying FM capabilities in resource-constrained clinical environments, potentially enabling real-time pathology AI integration.