Block Expanded DINORET: Adapting Natural Domain Foundation Models for Retinal Imaging Without Catastrophic Forgetting
作者: Jay Zoellin, Colin Merk, Mischa Buob, Amr Saad, Samuel Giesser, Tahm Spitznagel, Ferhat Turgut, Rui Santos, Yukun Zhou, Sigfried Wagner, Pearse A. Keane, Yih Chung Tham, Delia Cabrera DeBuc, Matthias D. Becker, Gabor M. Somfai
分类: cs.CV, cs.AI
发布日期: 2024-09-25
备注: J.Zoellin, C. Merk and M. Buob contributed equally as shared-first authors. D. Cabrera DeBuc, M. D. Becker and G. M. Somfai contributed equally as senior authors for this work
💡 一句话要点
提出Block Expanded DINORET,解决自然域预训练模型在视网膜成像迁移中的灾难性遗忘问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视网膜成像 预训练模型 自监督学习 领域自适应 灾难性遗忘 块扩展 迁移学习
📋 核心要点
- 现有医学图像深度学习模型泛化性差,且微调预训练模型时易发生灾难性遗忘。
- 提出Block Expanded DINORET,利用自监督学习和块扩展方法,将自然域预训练模型迁移到视网膜成像。
- 实验表明,Block Expanded DINORET在视网膜成像任务上表现优异,有效缓解了灾难性遗忘,并具有更高的数据效率。
📝 摘要(中文)
将深度学习集成到医学成像中极大地推动了诊断方法的发展,但也面临着泛化性方面的挑战。基于自监督学习的预训练模型能够解决这些问题并提高数据效率。自然域预训练模型在医学成像中显示出潜力,但对领域自适应的系统性研究,特别是使用自监督学习和参数高效微调的研究仍然不足。此外,很少有研究解决预训练模型微调期间的灾难性遗忘问题。本研究采用自监督学习方法,调整了DINOv2视觉Transformer用于视网膜成像分类任务,并生成了两个新的预训练模型,分别命名为DINORET和BE DINORET。使用公开的彩色眼底照片进行模型开发,并随后进行糖尿病视网膜病变分期和青光眼检测的微调。本研究引入了块扩展作为一种新的领域自适应策略,并评估了模型对灾难性遗忘的抵抗能力。模型以眼科领域最先进的预训练模型RETFound为基准。DINORET和BE DINORET在视网膜成像任务上表现出具有竞争力的性能,其中块扩展模型在大多数数据集上获得了最高分。块扩展成功地缓解了灾难性遗忘。少量样本学习研究表明,DINORET和BE DINORET在数据效率方面优于RETFound。这项研究强调了使用自监督学习和块扩展将自然域视觉模型应用于视网膜成像的潜力。BE DINORET提供了强大的性能,且不牺牲先前获得的知识。研究结果表明,这些方法能够使医疗机构为其患者群体开发定制的视觉模型,从而提高全球医疗保健的包容性。
🔬 方法详解
问题定义:论文旨在解决将自然图像领域预训练的视觉模型(如DINOv2)应用于视网膜图像分析时遇到的两个主要问题:一是领域迁移带来的性能下降;二是微调过程中出现的灾难性遗忘现象,即模型在适应新任务时忘记了之前学习到的知识。现有方法在解决这些问题时,要么需要大量标注数据,要么容易导致模型性能的不可逆转的损失。
核心思路:论文的核心思路是利用自监督学习进行领域自适应,并引入“块扩展”机制来缓解灾难性遗忘。自监督学习允许模型在无标注数据上学习视网膜图像的特征表示,从而缩小领域差距。块扩展则通过增加模型容量,使得模型在学习新任务的同时,能够保留之前学习到的知识,避免灾难性遗忘。
技术框架:整体框架包括三个主要阶段:1) 预训练阶段:使用DINOv2在自然图像数据集上进行预训练。2) 领域自适应阶段:使用自监督学习方法(如DINO)在视网膜图像数据集上对DINOv2进行微调,得到DINORET模型。同时,引入块扩展机制,在Transformer块中增加新的参数,得到BE DINORET模型。3) 微调和评估阶段:使用标注的视网膜图像数据集对DINORET和BE DINORET进行微调,并在糖尿病视网膜病变分期和青光眼检测等任务上进行评估。
关键创新:论文最关键的创新点在于提出了“块扩展”这一领域自适应策略。与传统的微调方法相比,块扩展不是直接修改预训练模型的参数,而是在Transformer块中增加新的参数,从而在学习新任务的同时,保留了预训练模型原有的知识。这种方法有效地缓解了灾难性遗忘,提高了模型的泛化能力。
关键设计:块扩展的具体实现方式是在Transformer块的MLP层中增加新的神经元。具体来说,对于每个Transformer块,将MLP层的隐藏层维度从原始的D扩展到D',其中D' > D。这些新增的神经元专门用于学习视网膜图像的特征表示,而原始的神经元则保留用于处理自然图像的特征表示。损失函数方面,使用了交叉熵损失函数进行分类任务的微调。
📊 实验亮点
实验结果表明,Block Expanded DINORET (BE DINORET) 在视网膜成像任务上表现出优异的性能,并在大多数数据集上获得了最高分。与RETFound相比,DINORET和BE DINORET在少量样本学习方面表现更佳,表明其具有更高的数据效率。此外,块扩展成功地缓解了灾难性遗忘,使得模型在适应新任务的同时,能够保留之前学习到的知识。
🎯 应用场景
该研究成果可应用于眼科疾病的自动诊断和筛查,例如糖尿病视网膜病变和青光眼的早期检测。通过将自然域预训练模型迁移到视网膜成像领域,可以降低对大量标注数据的依赖,并提高模型的泛化能力。这有助于医疗机构为特定患者群体开发定制的视觉模型,从而提高全球医疗保健的包容性和可及性。
📄 摘要(原文)
Integrating deep learning into medical imaging is poised to greatly advance diagnostic methods but it faces challenges with generalizability. Foundation models, based on self-supervised learning, address these issues and improve data efficiency. Natural domain foundation models show promise for medical imaging, but systematic research evaluating domain adaptation, especially using self-supervised learning and parameter-efficient fine-tuning, remains underexplored. Additionally, little research addresses the issue of catastrophic forgetting during fine-tuning of foundation models. We adapted the DINOv2 vision transformer for retinal imaging classification tasks using self-supervised learning and generated two novel foundation models termed DINORET and BE DINORET. Publicly available color fundus photographs were employed for model development and subsequent fine-tuning for diabetic retinopathy staging and glaucoma detection. We introduced block expansion as a novel domain adaptation strategy and assessed the models for catastrophic forgetting. Models were benchmarked to RETFound, a state-of-the-art foundation model in ophthalmology. DINORET and BE DINORET demonstrated competitive performance on retinal imaging tasks, with the block expanded model achieving the highest scores on most datasets. Block expansion successfully mitigated catastrophic forgetting. Our few-shot learning studies indicated that DINORET and BE DINORET outperform RETFound in terms of data-efficiency. This study highlights the potential of adapting natural domain vision models to retinal imaging using self-supervised learning and block expansion. BE DINORET offers robust performance without sacrificing previously acquired capabilities. Our findings suggest that these methods could enable healthcare institutions to develop tailored vision models for their patient populations, enhancing global healthcare inclusivity.