Few-Shot Continual Learning for 3D Brain MRI with Frozen Foundation Models

📄 arXiv: 2602.23533v1 📥 PDF

作者: Chi-Sheng Chen, Xinyu Zhang, Guan-Ying Chen, Qiuzhe Xie, Fan Zhang, En-Jui Kuo

分类: eess.IV, cs.CV, cs.LG

发布日期: 2026-02-26


💡 一句话要点

提出冻结基础模型与LoRA模块结合的少样本持续学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 持续学习 医学影像 低秩适配 脑MRI 灾难性遗忘 深度学习

📋 核心要点

  1. 现有方法在持续学习中容易遭遇灾难性遗忘,尤其是在有限标注数据的情况下。
  2. 本文提出结合冻结的预训练模型与任务特定的LoRA模块,专注于少样本持续学习。
  3. 实验结果显示,LoRA方法在肿瘤分割和脑龄估计任务上均实现了最佳性能,且无遗忘现象。

📝 摘要(中文)

基础模型在大规模3D医学影像数据上预训练后,在适应多个下游任务的持续学习中面临有限标注数据的挑战。本文通过结合冻结的预训练主干网络与任务特定的低秩适配(LoRA)模块,解决了3D脑MRI的少样本持续学习问题。任务依次到达,包括肿瘤分割(BraTS)和脑龄估计(IXI),且不重放之前的任务数据。每个任务配备专用的LoRA适配器,仅训练适配器和任务特定的头部,主干保持冻结,从而设计上消除了灾难性遗忘。实验结果表明,LoRA方法在两个任务上均表现出最佳的平衡性能,且训练参数少于0.1%。

🔬 方法详解

问题定义:本文旨在解决在有限标注数据下,基础模型在多个下游任务中的灾难性遗忘问题,尤其是在3D脑MRI的应用场景中。现有方法在连续任务学习中表现不佳,容易导致性能下降。

核心思路:论文提出将冻结的预训练主干网络与任务特定的LoRA模块相结合,确保在每个新任务中仅训练适配器和任务特定的头部,从而避免灾难性遗忘。

技术框架:整体架构包括一个冻结的基础模型和多个任务特定的LoRA适配器。每个任务在到达时,使用其专用的LoRA适配器进行训练,主干网络保持不变。

关键创新:最重要的创新点在于通过低秩适配模块实现了任务特定的学习,而不需要对整个模型进行微调,从而有效避免了遗忘现象。

关键设计:在设计中,LoRA适配器的参数设置非常少,每个任务的可训练参数少于0.1%。损失函数和网络结构经过精心设计,以确保在不同任务间的平衡性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LoRA方法在肿瘤分割任务(T1)上获得了Dice系数0.62±0.07,在脑龄估计任务(T2)上实现了MAE 0.16±0.05,且在两个任务上均未出现遗忘现象,表现优于传统的全微调和线性探测方法。

🎯 应用场景

该研究的潜在应用领域包括医学影像分析,尤其是在脑部疾病的诊断与监测中。通过有效的少样本持续学习方法,可以在有限的标注数据下,提升模型在不同任务间的适应能力,具有重要的实际价值和未来影响。

📄 摘要(原文)

Foundation models pretrained on large-scale 3D medical imaging data face challenges when adapted to multiple downstream tasks under continual learning with limited labeled data. We address few-shot continual learning for 3D brain MRI by combining a frozen pretrained backbone with task-specific Low-Rank Adaptation (LoRA) modules. Tasks arrive sequentially -- tumor segmentation (BraTS) and brain age estimation (IXI) -- with no replay of previous task data. Each task receives a dedicated LoRA adapter; only the adapter and task-specific head are trained while the backbone remains frozen, thereby eliminating catastrophic forgetting by design (BWT=0). In continual learning, sequential full fine-tuning suffers severe forgetting (T1 Dice drops from 0.80 to 0.16 after T2), while sequential linear probing achieves strong T1 (Dice 0.79) but fails on T2 (MAE 1.45). Our LoRA approach achieves the best balanced performance across both tasks: T1 Dice 0.62$\pm$0.07, T2 MAE 0.16$\pm$0.05, with zero forgetting and $<$0.1\% trainable parameters per task, though with noted systematic age underestimation in T2 (Wilcoxon $p<0.001$). Frozen foundation models with task-specific LoRA adapters thus offer a practical solution when both tasks must be maintained under few-shot continual learning.