MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation
作者: Yiwen Ye, Yicheng Wu, Xiangde Luo, He Zhang, Ziyang Chen, Ting Dang, Yanning Zhang, Yong Xia
分类: cs.CV
发布日期: 2025-09-07
备注: 10 pages, 5 figures
💡 一句话要点
MedSeqFT:提出序列化微调框架,提升医学影像分割Foundation Model在增量任务中的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学影像分割 Foundation Model 序列化微调 知识蒸馏 增量学习 LoRA 数据选择
📋 核心要点
- 现有医学影像分割Foundation Model微调方法,如并行微调和多任务微调,无法有效利用任务间共享知识或处理增量任务。
- MedSeqFT通过序列化微调,逐步适应新任务,并引入最大数据相似性选择和知识泛化保留微调,以保留通用知识并平衡任务适应性。
- 实验结果表明,MedSeqFT在多个3D分割任务上显著优于现有微调策略,并在未见任务上表现出更强的可迁移性。
📝 摘要(中文)
本文提出MedSeqFT,一种序列化微调框架,旨在提升医学影像分析中Foundation Model在分割任务上的性能,尤其是在下游应用以序列方式出现时。现有微调策略存在局限:并行微调隔离任务,无法利用共享知识;多任务微调需要同时访问所有数据集,难以处理增量任务集成。MedSeqFT逐步调整预训练模型以适应新任务,同时优化其表征能力。该框架包含两个核心组件:(1) 最大数据相似性(MDS)选择,用于识别最具代表性的下游样本,以保留通用知识;(2) 基于LoRA的知识和泛化保留微调(K&G RFT),平衡特定任务的适应与预训练知识的保留。在涵盖十个3D分割任务的两个多任务数据集上的实验表明,MedSeqFT始终优于最先进的微调策略,性能显著提升(例如,平均Dice提升3.0%)。在两个未见任务(COVID-19-20和肾脏)上的评估验证了MedSeqFT增强了可迁移性,尤其是在肿瘤分割方面。损失景观和参数变化的视觉分析进一步突出了MedSeqFT的鲁棒性。这些结果表明,序列化微调是一种有效的、知识保留的范例,适用于将Foundation Model应用于不断发展的临床任务。
🔬 方法详解
问题定义:现有医学影像分割的Foundation Model微调方法,要么并行处理各个任务导致知识孤岛,要么需要同时访问所有数据,无法适应临床任务的增量式出现。这限制了模型在实际应用中的泛化能力和效率。
核心思路:MedSeqFT的核心在于通过序列化的方式逐步微调预训练模型,使其在适应新任务的同时,尽可能保留从原始预训练数据中学习到的通用知识。通过知识蒸馏和数据选择机制,平衡任务特定性和通用性,从而提升模型在增量任务中的性能。
技术框架:MedSeqFT框架包含两个主要模块:1) 最大数据相似性(MDS)选择:从下游数据集中选择与预训练数据集最相似的样本,用于后续的微调,以保留通用知识。2) 知识和泛化保留微调(K&G RFT):使用LoRA(Low-Rank Adaptation)进行参数高效微调,并结合知识蒸馏,鼓励模型在适应新任务的同时,保持对原始知识的记忆。
关键创新:MedSeqFT的关键创新在于将序列化微调、数据选择和知识蒸馏相结合,形成一个完整的框架,解决了现有方法在增量式医学影像分割任务中的局限性。通过MDS选择,避免了灾难性遗忘;通过K&G RFT,实现了任务特定性和通用性的平衡。
关键设计:MDS选择使用预训练模型的特征空间计算下游数据与预训练数据的相似度,选择相似度最高的样本。K&G RFT使用LoRA进行参数高效微调,降低了计算成本。知识蒸馏采用预训练模型的输出作为teacher,引导微调后的模型学习。损失函数包含分割损失、知识蒸馏损失和正则化项,以平衡任务适应性和知识保留。
📊 实验亮点
实验结果表明,MedSeqFT在十个3D分割任务上取得了显著的性能提升,平均Dice系数提升了3.0%。在COVID-19-20和肾脏分割等未见任务上的评估验证了MedSeqFT具有更强的可迁移性,尤其是在肿瘤分割方面。损失景观和参数变化的视觉分析进一步证明了MedSeqFT的鲁棒性。
🎯 应用场景
MedSeqFT可应用于临床医学影像分析,例如辅助医生进行肿瘤、器官等病灶的自动分割与诊断。其序列化微调的特性使其能够适应不断涌现的新型疾病和扫描协议,降低了模型更新和维护的成本,具有重要的临床应用价值和潜力。
📄 摘要(原文)
Foundation models have become a promising paradigm for advancing medical image analysis, particularly for segmentation tasks where downstream applications often emerge sequentially. Existing fine-tuning strategies, however, remain limited: parallel fine-tuning isolates tasks and fails to exploit shared knowledge, while multi-task fine-tuning requires simultaneous access to all datasets and struggles with incremental task integration. To address these challenges, we propose MedSeqFT, a sequential fine-tuning framework that progressively adapts pre-trained models to new tasks while refining their representational capacity. MedSeqFT introduces two core components: (1) Maximum Data Similarity (MDS) selection, which identifies downstream samples most representative of the original pre-training distribution to preserve general knowledge, and (2) Knowledge and Generalization Retention Fine-Tuning (K&G RFT), a LoRA-based knowledge distillation scheme that balances task-specific adaptation with the retention of pre-trained knowledge. Extensive experiments on two multi-task datasets covering ten 3D segmentation tasks demonstrate that MedSeqFT consistently outperforms state-of-the-art fine-tuning strategies, yielding substantial performance gains (e.g., an average Dice improvement of 3.0%). Furthermore, evaluations on two unseen tasks (COVID-19-20 and Kidney) verify that MedSeqFT enhances transferability, particularly for tumor segmentation. Visual analyses of loss landscapes and parameter variations further highlight the robustness of MedSeqFT. These results establish sequential fine-tuning as an effective, knowledge-retentive paradigm for adapting foundation models to evolving clinical tasks. Code will be released.