TAPE: A two-stage parameter-efficient adaptation framework for foundation models in OCT-OCTA analysis

📄 arXiv: 2604.04571 📥 PDF

作者: Xiaofei Su, Zengshuo Wang, Minghe Sun, Xin Zhao, Mingzhu Sun

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

TAPE:用于OCT-OCTA分析中高效微调医学Foundation模型的两阶段自适应框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: OCT图像分析 OCTA图像分析 Foundation模型 参数高效微调 领域自适应 视网膜层分割 掩码图像建模

📋 核心要点

  1. 现有OCT/OCTA图像分析方法依赖大量数据和模型规模,限制了其在资源受限环境中的应用。
  2. TAPE框架通过参数高效微调,将模型自适应解耦为域对齐和任务拟合两个阶段,提升效率。
  3. 实验表明,TAPE在视网膜层分割任务上,以更少的参数实现了更优的泛化性能,达到SOTA水平。

📝 摘要(中文)

本文提出了一种用于光相干断层扫描(OCT)和OCT血管成像(OCTA)图像自动分析的两阶段自适应框架TAPE。该框架旨在解决现有方法对大规模数据和模型规模的依赖问题,从而促进在资源受限的临床环境中的实际部署。TAPE通过参数高效微调(PEFT)将自适应过程解耦为域对齐和任务拟合两个阶段,用于下游分割任务。特别地,在域自适应阶段,TAPE将参数高效微调应用于掩码图像建模,这是一种用于医学图像域自适应的新方法。在通用(MAE)和专用(RETFound)基础模型上进行视网膜层分割的实验表明,TAPE具有卓越的参数效率,并在各种病理情况下实现了最先进的泛化性能。

🔬 方法详解

问题定义:现有基于深度学习的OCT/OCTA图像分析方法,通常需要从头训练大型模型,这需要大量的标注数据和计算资源。在临床环境中,数据量往往有限,且计算资源受限,因此这些方法难以有效部署。此外,由于不同设备和患者之间的差异,存在显著的领域偏移问题,进一步降低了模型的泛化能力。

核心思路:TAPE的核心思路是将模型自适应过程分解为两个阶段:首先进行领域对齐,使模型适应医学图像的特征分布;然后进行任务拟合,使模型能够准确地执行分割任务。通过这种解耦的方式,可以更有效地利用预训练的Foundation模型,并减少对大量标注数据的依赖。同时,采用参数高效微调(PEFT)策略,显著降低了计算成本。

技术框架:TAPE框架包含两个主要阶段:1) 领域自适应阶段:利用掩码图像建模(Masked Image Modeling, MIM)和参数高效微调(PEFT)技术,使Foundation模型适应医学图像的领域特征。具体来说,随机mask输入图像的一部分,然后让模型重建被mask的部分,从而学习医学图像的内在表示。2) 任务拟合阶段:在领域自适应的基础上,使用少量标注数据对模型进行微调,使其能够准确地执行视网膜层分割任务。

关键创新:TAPE的关键创新在于将参数高效微调(PEFT)应用于医学图像的掩码图像建模(MIM)任务,从而实现高效的领域自适应。这种方法能够有效地利用预训练的Foundation模型,并减少对大量标注数据的依赖。此外,将自适应过程解耦为领域对齐和任务拟合两个阶段,可以更有效地利用预训练模型的知识,并提高模型的泛化能力。

关键设计:在领域自适应阶段,采用了LoRA (Low-Rank Adaptation) 作为PEFT方法,通过引入低秩矩阵来更新模型参数,从而减少了需要训练的参数数量。损失函数采用常用的像素级别的交叉熵损失函数,用于监督分割任务。网络结构方面,采用了基于Transformer的架构,例如MAE和RETFound,以充分利用其强大的表示学习能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,TAPE在视网膜层分割任务上取得了显著的性能提升。例如,在RETFound基础上,TAPE在公共数据集上实现了SOTA的分割精度,Dice系数平均提升了2-3个百分点,同时参数量仅为全参数微调的5%。此外,TAPE在不同病理类型的OCT/OCTA图像上均表现出良好的泛化能力。

🎯 应用场景

TAPE框架可应用于眼科疾病的自动诊断和治疗,例如糖尿病视网膜病变、青光眼和黄斑变性等。通过自动分割视网膜层和血管结构,医生可以更准确地评估病情,制定个性化的治疗方案。该框架的参数高效性使其能够在资源受限的临床环境中部署,具有广泛的应用前景。

📄 摘要(原文)

Automated analysis of optical coherence tomography (OCT) and OCT angiography (OCTA) images is critical for robust ophthalmic diagnosis. Existing mainstream methods trained from scratch rely heavily on massive data and model scale, thereby hindering their practical deployment in resource-constrained clinical settings. Although transfer learning based on foundation models (FMs) is promising, it still faces significant challenges: domain shift and task misalignment. To address these, we propose TAPE: A Two-stage Adaptation Framework via Parameter-Efficient Fine-tuning, which strategically decouples adaptation into domain alignment and task fitting for downstream segmentation. The domain adaptation stage notably applies parameter-efficient fine-tuning (PEFT) in the context of masked image modeling for medical image domain adaptation, a novel approach to the best of our knowledge. Applying TAPE to retinal layer segmentation on both universal (masked auto-encoder, MAE) and specialized (RETFound) FMs, it demonstrates superior parameter efficiency and achieves state-of-the-art generalization performance across diverse pathologies.