Few-shot Adaptation of Medical Vision-Language Models
作者: Fereshteh Shakeri, Yunshi Huang, Julio Silva-Rodríguez, Houda Bahig, An Tang, Jose Dolz, Ismail Ben Ayed
分类: cs.CV
发布日期: 2024-09-05
备注: MICCAI 2024 (Spotlight) - Code is available at https://github.com/FereshteShakeri/few-shot-MedVLMs.git
🔗 代码/项目: GITHUB
💡 一句话要点
针对医学视觉-语言模型,提出一种高效的少样本自适应基准与方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学影像 视觉-语言模型 少样本学习 迁移学习 线性探针
📋 核心要点
- 医学视觉-语言模型在零样本迁移方面取得进展,但少样本学习的潜力尚未充分挖掘。
- 提出一种文本引导的线性探针方法,通过学习类别乘数融合视觉和文本信息,实现高效自适应。
- 实验表明,该方法在多种医学模态和下游任务中,性能可与更复杂的提示学习方法媲美,且速度更快。
📝 摘要(中文)
多模态学习通过整合图像和文本数据,已成为医学影像研究的新兴方法。尽管在建立医学基础模型及其零样本迁移到下游任务方面已投入大量精力,但常用的少样本设置仍相对未被探索。本文针对医学视觉-语言模型(VLMs)的少样本自适应,引入了第一个结构化基准,并研究了自然图像中常用的各种自适应策略。此外,我们评估了一种线性探针自适应基线的简单泛化,该基线旨在通过可学习的类别乘数来优化视觉原型和文本嵌入的融合。令人惊讶的是,这种文本引导的线性探针与复杂的提示学习和基于适配器的策略相比,表现出具有竞争力的性能,同时运行速度更快,并且适用于黑盒设置。我们的广泛实验涵盖了三种不同的医学模态和专门的基础模型,九个下游任务以及几种最先进的少样本自适应方法。我们公开了我们的基准和代码,以触发该新兴主题的进一步发展。
🔬 方法详解
问题定义:现有医学视觉-语言模型在少样本学习场景下的自适应能力不足,缺乏系统性的基准测试和高效的自适应方法。现有方法要么计算复杂度高,要么需要大量的参数调整,难以在资源受限的医学应用中部署。
核心思路:论文的核心思路是利用文本信息来引导视觉特征的学习,通过一个简单的线性探针,学习视觉原型和文本嵌入之间的最佳融合方式。这种方法旨在利用文本的先验知识,提高模型在少样本情况下的泛化能力。
技术框架:该方法主要包含以下几个步骤:1) 使用预训练的医学视觉-语言模型提取图像的视觉特征和文本的文本嵌入;2) 使用线性探针学习每个类别的视觉原型和文本嵌入之间的权重;3) 使用学习到的权重融合视觉原型和文本嵌入,得到最终的类别表示;4) 使用分类器对图像进行分类。
关键创新:该方法最重要的创新点在于提出了文本引导的线性探针。与传统的线性探针方法相比,该方法能够利用文本信息来指导视觉特征的学习,从而提高模型在少样本情况下的泛化能力。此外,该方法简单高效,易于实现和部署。
关键设计:该方法的关键设计包括:1) 使用可学习的类别乘数来控制视觉原型和文本嵌入的融合比例;2) 使用交叉熵损失函数来训练线性探针;3) 采用黑盒设置,允许使用预训练的视觉-语言模型,而无需对其进行微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的文本引导线性探针方法在三种不同的医学模态和九个下游任务中,取得了与复杂的提示学习和基于适配器的策略相当的性能。例如,在某些任务上,该方法甚至超过了现有方法,同时运行速度更快,参数量更少。该方法在黑盒设置下也表现良好,表明其具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于多种医学影像分析任务,例如疾病诊断、病灶分割和图像报告生成。通过少样本自适应,可以快速将模型部署到新的医疗机构或针对新的疾病类型,降低了模型部署的成本和时间。该方法还有助于推动医学人工智能的普及,使更多医生和患者受益。
📄 摘要(原文)
Integrating image and text data through multi-modal learning has emerged as a new approach in medical imaging research, following its successful deployment in computer vision. While considerable efforts have been dedicated to establishing medical foundation models and their zero-shot transfer to downstream tasks, the popular few-shot setting remains relatively unexplored. Following on from the currently strong emergence of this setting in computer vision, we introduce the first structured benchmark for adapting medical vision-language models (VLMs) in a strict few-shot regime and investigate various adaptation strategies commonly used in the context of natural images. Furthermore, we evaluate a simple generalization of the linear-probe adaptation baseline, which seeks an optimal blending of the visual prototypes and text embeddings via learnable class-wise multipliers. Surprisingly, such a text-informed linear probe yields competitive performances in comparison to convoluted prompt-learning and adapter-based strategies, while running considerably faster and accommodating the black-box setting. Our extensive experiments span three different medical modalities and specialized foundation models, nine downstream tasks, and several state-of-the-art few-shot adaptation methods. We made our benchmark and code publicly available to trigger further developments in this emergent subject: \url{https://github.com/FereshteShakeri/few-shot-MedVLMs}.