CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning
作者: Yuexi Du, Brian Chang, Nicha C. Dvornek
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-07-30
备注: Accepted by MICCAI 2024
💡 一句话要点
CLEFT:利用高效大语言模型和提示微调的语言-图像对比学习,提升医学影像任务性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对比学习 语言-图像模型 医学影像 提示学习 大语言模型 自监督学习 胸部X光 乳腺X光
📋 核心要点
- 现有CLIP方法计算资源需求大,训练时间长,不适用于医学影像等数据集规模受限的场景。
- CLEFT方法利用高效的大语言模型和提示微调,学习上下文相关的提示,弥合诊断数据和类别标签的差距。
- 实验表明,CLEFT在胸部X光和乳腺X光数据集上取得了SOTA性能,并显著降低了可训练参数量。
📝 摘要(中文)
本文提出了一种新颖的语言-图像对比学习方法,称为CLEFT(Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning),旨在利用预训练的大型语言和视觉模型的优势。现有的CLIP类方法由于模型和数据集规模庞大,需要大量的GPU资源和较长的训练时间,这使得它们不适用于大型数据集并不常见的医学应用。此外,语言模型提示主要从与图像相关的标签手动派生,可能忽略了训练样本中的丰富信息。CLEFT提出了一种有效的策略来学习基于上下文的提示,从而弥合了信息丰富的临床诊断数据和简单类别标签之间的差距。在多个胸部X光和乳腺X光数据集上,该方法与各种基线相比,表现出最先进的性能。所提出的参数高效框架可以将总可训练模型大小减少39%,并将可训练语言模型减少到仅为当前BERT编码器的4%。
🔬 方法详解
问题定义:现有的CLIP-like方法在医学图像领域面临挑战,主要体现在两个方面:一是计算资源需求高,训练成本大;二是语言模型的prompt构建依赖人工标注,无法充分利用临床诊断报告中蕴含的丰富信息。因此,如何降低计算成本,并有效利用医学图像的上下文信息,是本文要解决的关键问题。
核心思路:CLEFT的核心思路是利用高效的大语言模型,并结合prompt fine-tuning技术,学习更具上下文信息的prompt。通过这种方式,可以在降低计算成本的同时,提升模型对医学图像的理解能力。具体来说,CLEFT使用参数量更小的语言模型,并通过微调prompt的方式,使其能够更好地捕捉医学图像的特征。
技术框架:CLEFT的整体框架仍然遵循对比学习的范式,主要包含图像编码器和文本编码器两个模块。图像编码器负责提取图像的视觉特征,文本编码器负责提取文本描述的语义特征。不同之处在于,CLEFT使用了高效的大语言模型作为文本编码器,并通过prompt fine-tuning的方式,使其能够更好地适应医学图像的特点。训练过程中,CLEFT通过对比学习的方式,使得相似的图像和文本在特征空间中更加接近,而不相似的图像和文本则更加远离。
关键创新:CLEFT的关键创新在于prompt fine-tuning策略。传统的CLIP方法通常使用人工设计的prompt,这些prompt往往比较简单,无法充分利用医学图像的上下文信息。CLEFT通过微调prompt的方式,使其能够自动学习更具上下文信息的prompt,从而提升模型对医学图像的理解能力。此外,CLEFT还使用了高效的大语言模型,降低了计算成本。
关键设计:CLEFT的关键设计包括:1) 使用参数量较小的预训练语言模型,例如DistilBERT,以降低计算成本;2) 设计prompt fine-tuning策略,通过微调prompt的方式,使其能够更好地捕捉医学图像的特征;3) 使用对比学习损失函数,使得相似的图像和文本在特征空间中更加接近,而不相似的图像和文本则更加远离;4) 针对医学图像的特点,设计特定的数据增强策略。
🖼️ 关键图片
📊 实验亮点
CLEFT在多个胸部X光和乳腺X光数据集上取得了state-of-the-art的性能。与传统的BERT编码器相比,CLEFT可以将可训练模型大小减少39%,并将可训练语言模型减少到仅为4%。实验结果表明,CLEFT在降低计算成本的同时,能够有效提升医学影像任务的性能。
🎯 应用场景
CLEFT方法在医学影像诊断领域具有广泛的应用前景,例如胸部X光片疾病检测、乳腺癌筛查等。该方法可以帮助医生更准确地诊断疾病,提高诊断效率。此外,CLEFT还可以应用于医学图像报告生成、医学知识图谱构建等领域,为医学研究提供更强大的支持。未来,CLEFT有望成为医学影像分析的重要工具。
📄 摘要(原文)
Recent advancements in Contrastive Language-Image Pre-training (CLIP) have demonstrated notable success in self-supervised representation learning across various tasks. However, the existing CLIP-like approaches often demand extensive GPU resources and prolonged training times due to the considerable size of the model and dataset, making them poor for medical applications, in which large datasets are not always common. Meanwhile, the language model prompts are mainly manually derived from labels tied to images, potentially overlooking the richness of information within training samples. We introduce a novel language-image Contrastive Learning method with an Efficient large language model and prompt Fine-Tuning (CLEFT) that harnesses the strengths of the extensive pre-trained language and visual models. Furthermore, we present an efficient strategy for learning context-based prompts that mitigates the gap between informative clinical diagnostic data and simple class labels. Our method demonstrates state-of-the-art performance on multiple chest X-ray and mammography datasets compared with various baselines. The proposed parameter efficient framework can reduce the total trainable model size by 39% and reduce the trainable language model to only 4% compared with the current BERT encoder.