Deep Reprogramming Distillation for Medical Foundation Models
作者: Siyuan Du, Yuhang Zhou, Haolin Li, Jiangchao Yao, Haishuai Wang, Hui Lin, Ya Zhang, Yanfeng Wang
分类: cs.CV
发布日期: 2026-05-06
💡 一句话要点
提出深度重编程蒸馏(DRD)框架,用于医学预训练模型在下游任务上的高效迁移和轻量化部署。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学图像分析 预训练模型 知识蒸馏 重编程 模型压缩 领域自适应 中心核对齐
📋 核心要点
- 医学预训练模型在特定任务上应用受限于预训练与下游任务的差异、计算资源和速度约束,现有方法如KD和PEFT存在局限性。
- 提出深度重编程蒸馏(DRD)框架,通过重编程模块克服领域差异,并实现从大型模型到轻量级模型的有效蒸馏。
- 设计中心核对齐(CKA)蒸馏方法,增强知识迁移的鲁棒性。实验表明DRD在多个医学任务上优于现有方法。
📝 摘要(中文)
医学预训练模型在大规模数据集上展现了强大的通用性能。然而,将这些模型应用于特定的医学场景仍然面临挑战,这主要是由于预训练和下游任务之间的差异,以及实际应用中对计算资源和速度的限制。现有的相关技术或多或少存在一些内在的局限性。例如,知识蒸馏(KD)假设教师和学生模型共享相同的任务、训练策略和模型结构,而参数高效微调(PEFT)无法实现个性化和轻量级的部署。即使PEFT和KD的结合也难以解决教师和学生模型在结构和训练策略上的不一致性,导致知识迁移效率低下。本研究提出了一个名为深度重编程蒸馏(DRD)的新框架来应对这一挑战。具体来说,DRD引入了重编程模块,一方面克服了预训练和下游场景之间的领域和任务差异,另一方面构建了从基础模型到轻量级下游模型的学生友好的高效蒸馏。此外,为了减轻不同训练条件下的变异性,我们设计了一种中心核对齐(CKA)蒸馏方法来促进鲁棒的知识迁移。实验结果表明,DRD在不同的基础模型下,在18个医学下游任务中超越了之前的PEFT和KD方法,涵盖了包括2D/3D分类和2D/3D分割在内的各种场景。
🔬 方法详解
问题定义:医学领域预训练模型虽然强大,但直接应用于特定下游任务时,由于预训练数据和下游任务数据分布的差异,以及计算资源和速度的限制,性能会受到影响。现有的知识蒸馏方法要求教师和学生模型结构相似,参数高效微调方法难以实现个性化部署,二者结合也无法解决模型结构和训练策略不一致的问题。
核心思路:论文的核心思路是引入一个重编程模块,将输入数据转换到更适合下游任务的表示空间,从而缩小预训练和下游任务之间的差距。同时,利用知识蒸馏技术,将预训练模型的知识迁移到轻量级的下游模型中,实现高效的知识迁移和部署。通过中心核对齐(CKA)蒸馏方法,增强知识迁移的鲁棒性,减少训练条件变化带来的影响。
技术框架:DRD框架主要包含三个模块:预训练的医学基础模型(Teacher Model)、重编程模块(Reprogramming Module)和轻量级的下游模型(Student Model)。首先,输入数据经过重编程模块进行转换,得到新的表示。然后,将原始输入和重编程后的输入分别输入到Teacher Model和Student Model中。最后,通过知识蒸馏方法,将Teacher Model的知识迁移到Student Model中。
关键创新:DRD的关键创新在于引入了重编程模块,该模块能够学习到一种新的数据表示,从而克服预训练和下游任务之间的领域和任务差异。此外,DRD还提出了中心核对齐(CKA)蒸馏方法,通过对齐Teacher Model和Student Model的特征表示,增强知识迁移的鲁棒性。
关键设计:重编程模块的具体结构未知,但其目标是学习一个映射函数,将输入数据转换到更适合下游任务的表示空间。CKA蒸馏方法通过最小化Teacher Model和Student Model的特征表示之间的CKA距离来实现知识迁移。损失函数包括传统的知识蒸馏损失和CKA损失,具体权重需要根据实验进行调整。下游模型的结构可以根据具体任务进行选择,通常选择轻量级的模型结构以满足计算资源和速度的限制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DRD框架在18个医学下游任务中,显著优于现有的PEFT和KD方法。具体而言,DRD在2D/3D分类和2D/3D分割任务上均取得了state-of-the-art的性能。相较于传统方法,DRD在模型精度和计算效率上都取得了显著提升,验证了其有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于医学图像分析领域,例如疾病诊断、病灶分割、治疗方案制定等。通过将大型医学预训练模型的知识迁移到轻量级模型,可以实现高效、个性化的医疗服务,尤其是在资源受限的环境下,具有重要的应用价值和潜力。未来,该方法有望推广到其他医学领域,例如基因组学、蛋白质组学等。
📄 摘要(原文)
Medical foundation models pre-trained on large-scale datasets have shown powerful versatile performance. However, when adapting medical foundation models for specific medical scenarios, it remains the inevitable challenge due to the gap induced by the discrepancy between pre-training and downstream tasks, the real-world computation, and speed constraints. Relevant techniques that probably handle this challenge more or less suffer from some intrinsic limitations. For example, knowledge distillation (KD) assumes that teacher and student models share the same task, training strategy, and model structure family, while prevalent parameter-efficient fine-tuning (PEFT) fails to achieve personalized and lightweight deployment. Even the combination of PEFT and KD still struggles to resolve model structures and training strategies inconsistencies between teacher and student models, leading to inefficient knowledge transfer. In this study, we propose a novel framework called Deep Reprogramming Distillation (DRD) to combat the general adaptation challenge. Specifically, DRD introduces the novel reprogramming module that on the one side overcomes the domain and task discrepancy between pretraining and downstream scenarios, and on the other side builds the student-friendly efficient distillation from foundation models to lightweight downstream models. Furthermore, to mitigate variability under different training conditions, we design a centered kernel alignment (CKA) distillation method to promote robust knowledge transfer. Empirical results show that DRD surpasses previous PEFT and KD methods across 18 medical downstream tasks under different foundation models, covering various scenarios including 2D/3D classification and 2D/3D segmentation.