Curriculum Fine-tuning of Vision Foundation Model for Medical Image Classification Under Label Noise

📄 arXiv: 2412.00150v1 📥 PDF

作者: Yeonguk Yu, Minhwan Ko, Sungho Shin, Kangmin Kim, Kyoobin Lee

分类: cs.CV, eess.IV

发布日期: 2024-11-29

备注: Accepted at NeurIPS 2024


💡 一句话要点

提出CUFIT:一种面向带噪医学图像分类的视觉基础模型课程微调方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分类 标签噪声 视觉基础模型 课程学习 线性探测

📋 核心要点

  1. 医学图像数据集中普遍存在标签噪声,严重影响深度学习模型的性能,现有方法未能充分利用视觉基础模型(VFMs)的强大预训练特征。
  2. CUFIT方法首先利用VFM的线性探测对样本进行初步分类,该阶段对噪声不敏感,然后基于此进行课程微调,逐步优化模型。
  3. 实验表明,CUFIT在多个医学图像数据集上显著优于现有方法,尤其是在高噪声率下,在噪声标签检测方面也表现出更高的精度和召回率。

📝 摘要(中文)

深度神经网络在各种视觉任务中表现出卓越的性能,但其成功很大程度上取决于训练数据的质量。标签噪声是医学数据集中的一个关键问题,会显著降低模型性能。以往的干净样本选择方法没有充分利用视觉基础模型(VFMs)的预训练特征,并且假设训练是从头开始的。本文提出CUFIT,一种用于带噪标签下医学图像分类的VFMs课程微调范式。我们的方法基于以下事实:VFMs的线性探测相对不受噪声样本的影响,因为它不更新VFM的特征提取器,从而稳健地对训练样本进行分类。随后,进行两个适配器的课程微调,从线性探测阶段的干净样本选择开始。实验结果表明,CUFIT在各种医学图像基准测试中优于以往的方法。具体而言,在40%噪声率下,我们的方法在HAM10000、APTOS-2019、BloodMnist和OrgancMnist数据集上分别超过了之前的基线5.0%、2.1%、4.6%和5.8%。此外,我们提供了广泛的分析,以证明我们的方法对噪声标签检测的影响。例如,与以往的方法相比,我们的方法显示出更高的标签精度和召回率。我们的工作突出了在具有挑战性的噪声标签条件下利用VFMs进行医学图像分类的潜力。

🔬 方法详解

问题定义:论文旨在解决医学图像分类中标签噪声带来的模型性能下降问题。现有方法通常从头开始训练模型,忽略了视觉基础模型(VFMs)强大的预训练特征,并且在噪声环境下难以有效选择干净样本。

核心思路:论文的核心思路是利用VFMs的线性探测对噪声的鲁棒性,先进行初步的干净样本选择,然后基于此进行课程微调。线性探测阶段固定VFM的特征提取器,避免噪声样本对特征提取的影响,从而获得更可靠的样本分类结果。

技术框架:CUFIT方法包含两个主要阶段:1) 线性探测阶段:使用预训练的VFM,固定其特征提取器,仅训练一个线性分类器。该阶段用于初步评估训练样本的质量,选择置信度高的样本作为干净样本。2) 课程微调阶段:基于线性探测阶段选择的干净样本,逐步微调VFM的两个适配器(adapter)。课程学习策略从干净样本开始,逐渐引入更多样本,以提高模型的泛化能力。

关键创新:论文的关键创新在于将视觉基础模型的线性探测与课程微调相结合,用于解决带噪医学图像分类问题。与以往方法相比,CUFIT充分利用了VFMs的预训练知识,并且通过线性探测实现了对噪声的鲁棒性。

关键设计:CUFIT的关键设计包括:1) 使用预训练的视觉基础模型(如ViT)。2) 线性探测阶段使用交叉熵损失函数训练线性分类器。3) 课程微调阶段,逐步增加训练样本的数量,可以采用基于置信度的样本选择策略。4) 使用两个适配器进行微调,适配器的具体结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CUFIT在多个医学图像数据集上取得了显著的性能提升。在40%噪声率下,CUFIT在HAM10000数据集上超越了之前的基线方法5.0%,在APTOS-2019数据集上提升了2.1%,在BloodMnist数据集上提升了4.6%,在OrgancMnist数据集上提升了5.8%。此外,CUFIT在噪声标签检测方面也表现出更高的精度和召回率。

🎯 应用场景

该研究成果可应用于各种医学图像分析任务,例如皮肤癌诊断、眼底病变检测、血液细胞分类和器官分割等。通过提高模型在噪声数据下的鲁棒性,可以减少对高质量标注数据的依赖,降低医疗诊断的成本,并提高诊断的准确性,具有重要的临床应用价值。

📄 摘要(原文)

Deep neural networks have demonstrated remarkable performance in various vision tasks, but their success heavily depends on the quality of the training data. Noisy labels are a critical issue in medical datasets and can significantly degrade model performance. Previous clean sample selection methods have not utilized the well pre-trained features of vision foundation models (VFMs) and assumed that training begins from scratch. In this paper, we propose CUFIT, a curriculum fine-tuning paradigm of VFMs for medical image classification under label noise. Our method is motivated by the fact that linear probing of VFMs is relatively unaffected by noisy samples, as it does not update the feature extractor of the VFM, thus robustly classifying the training samples. Subsequently, curriculum fine-tuning of two adapters is conducted, starting with clean sample selection from the linear probing phase. Our experimental results demonstrate that CUFIT outperforms previous methods across various medical image benchmarks. Specifically, our method surpasses previous baselines by 5.0%, 2.1%, 4.6%, and 5.8% at a 40% noise rate on the HAM10000, APTOS-2019, BloodMnist, and OrgancMnist datasets, respectively. Furthermore, we provide extensive analyses to demonstrate the impact of our method on noisy label detection. For instance, our method shows higher label precision and recall compared to previous approaches. Our work highlights the potential of leveraging VFMs in medical image classification under challenging conditions of noisy labels.