Pathryoshka: Compressing Pathology Foundation Models via Multi-Teacher Knowledge Distillation with Nested Embeddings

作者: Christian Grashei, Christian Brechenmacher, Rao Muhammad Umer, Jingsong Liu, Carsten Marr, Ewa Szczurek, Peter J. Schüffler

分类: cs.CV

发布日期: 2025-11-28

💡 一句话要点

Pathryoshka：通过嵌套嵌入的多教师知识蒸馏压缩病理学基础模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 病理学 基础模型 知识蒸馏 多教师学习 模型压缩

📋 核心要点

现有病理学基础模型参数量巨大，计算资源需求高，限制了其在资源受限环境下的应用。
Pathryoshka采用多教师知识蒸馏和嵌套嵌入，在减小模型尺寸的同时，保持甚至提升性能。
实验表明，Pathryoshka在多个病理学数据集上实现了与大型教师模型相当的性能，模型大小减少86-92%。

📝 摘要（中文）

病理学基础模型（FMs）推动了计算病理学的显著进展。然而，这些高性能模型可能轻松超过十亿参数，并产生高维嵌入，从而限制了它们在计算资源紧张情况下的研究或临床应用。本文介绍Pathryoshka，一个受RADIO蒸馏和Matryoshka表征学习启发的的多教师蒸馏框架，旨在减小病理学FM的大小，同时允许适应性嵌入维度。我们在十个具有不同下游任务的公共病理学基准上，使用蒸馏模型评估了我们的框架。与更大的教师模型相比，Pathryoshka在性能相当的情况下，将模型大小减少了86-92%。在准确率方面，它比同等大小的先进单教师蒸馏模型平均高出7.0。通过实现高效的本地部署，同时不牺牲准确性或表征丰富性，Pathryoshka为更广泛的研究和临床社区普及了最先进的病理学FM。

🔬 方法详解

问题定义：现有病理学基础模型（FMs）虽然性能优异，但模型体积庞大，参数量巨大，导致计算和存储成本高昂，难以在资源有限的环境中部署和应用。这限制了病理学FMs在更广泛的研究和临床场景中的使用。现有单教师知识蒸馏方法在压缩模型的同时，往往会造成较大的性能损失。

核心思路：Pathryoshka的核心思路是利用多教师知识蒸馏，从多个大型病理学FMs中提取知识，并将其传递到一个小型学生模型中。同时，借鉴Matryoshka表征学习的思想，学习嵌套的嵌入表示，使得学生模型可以灵活地调整嵌入维度，以适应不同的下游任务和计算资源限制。通过这种方式，Pathryoshka旨在在显著减小模型尺寸的同时，保持甚至提升模型性能。

技术框架：Pathryoshka框架主要包含以下几个模块：1) 多教师模型：使用多个预训练好的大型病理学FMs作为教师模型。2) 学生模型：一个小型神经网络，用于学习教师模型的知识。3) 知识蒸馏模块：利用RADIO蒸馏方法，将教师模型的知识传递给学生模型。4) 嵌套嵌入模块：学习具有不同维度的嵌套嵌入表示，使得学生模型可以灵活地调整嵌入维度。整个流程包括：首先，利用多个教师模型对病理图像进行编码，得到高维嵌入表示。然后，利用知识蒸馏模块，将教师模型的嵌入表示和预测结果传递给学生模型。最后，学生模型学习具有不同维度的嵌套嵌入表示，并用于下游任务。

关键创新：Pathryoshka的关键创新在于以下几个方面：1) 采用多教师知识蒸馏，可以从多个教师模型中提取更丰富的知识，从而提升学生模型的性能。2) 借鉴Matryoshka表征学习的思想，学习嵌套的嵌入表示，使得学生模型可以灵活地调整嵌入维度，以适应不同的下游任务和计算资源限制。3) 结合RADIO蒸馏方法，可以有效地将教师模型的知识传递给学生模型。

关键设计：Pathryoshka的关键设计包括：1) 教师模型的选择：选择多个具有不同架构和训练数据的病理学FMs作为教师模型，以增加知识的多样性。2) 知识蒸馏损失函数：采用RADIO蒸馏损失函数，包括特征蒸馏损失和预测蒸馏损失，以确保学生模型能够学习到教师模型的嵌入表示和预测结果。3) 嵌套嵌入维度：根据下游任务和计算资源限制，选择合适的嵌套嵌入维度。4) 学生模型架构：选择一个小型神经网络作为学生模型，例如ResNet或Transformer。

🖼️ 关键图片

📊 实验亮点

Pathryoshka在十个公共病理学基准数据集上进行了评估，实验结果表明，与大型教师模型相比，Pathryoshka在性能相当的情况下，将模型大小减少了86-92%。在准确率方面，Pathryoshka比同等大小的先进单教师蒸馏模型平均高出7.0%。这些结果表明，Pathryoshka能够有效地压缩病理学基础模型，同时保持甚至提升模型性能。

🎯 应用场景

Pathryoshka具有广泛的应用前景，可用于病理图像分析、疾病诊断、预后预测等领域。通过压缩病理学基础模型，Pathryoshka使得这些模型能够在资源受限的环境中部署和应用，例如移动设备、边缘计算平台等。这将有助于推动精准医疗的发展，提高医疗诊断的效率和准确性，并为患者提供更好的医疗服务。未来，Pathryoshka可以进一步扩展到其他医学图像分析领域，例如放射影像学、眼科图像分析等。

📄 摘要（原文）

Pathology foundation models (FMs) have driven significant progress in computational pathology. However, these high-performing models can easily exceed a billion parameters and produce high-dimensional embeddings, thus limiting their applicability for research or clinical use when computing resources are tight. Here, we introduce Pathryoshka, a multi-teacher distillation framework inspired by RADIO distillation and Matryoshka Representation Learning to reduce pathology FM sizes while allowing for adaptable embedding dimensions. We evaluate our framework with a distilled model on ten public pathology benchmarks with varying downstream tasks. Compared to its much larger teachers, Pathryoshka reduces the model size by 86-92% at on-par performance. It outperforms state-of-the-art single-teacher distillation models of comparable size by a median margin of 7.0 in accuracy. By enabling efficient local deployment without sacrificing accuracy or representational richness, Pathryoshka democratizes access to state-of-the-art pathology FMs for the broader research and clinical community.

Pathryoshka: Compressing Pathology Foundation Models via Multi-Teacher Knowledge Distillation with Nested Embeddings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理