Generating customized prompts for Zero-Shot Rare Event Medical Image Classification using LLM

📄 arXiv: 2501.16481v1 📥 PDF

作者: Payal Kamboj, Ayan Banerjee, Bin Xu, Sandeep Gupta

分类: cs.CV

发布日期: 2025-01-27

备注: Accepted in IEEE ISBI, 2025


💡 一句话要点

利用LLM生成定制化Prompt,用于零样本罕见事件医学图像分类

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 罕见事件分类 医学图像 零样本学习 大型语言模型 Prompt工程

📋 核心要点

  1. 深度学习在罕见事件医学图像分类中面临数据不足的挑战,难以准确估计数据分布。
  2. 利用领域专家知识,生成定制化、上下文相关的提示,供大型语言模型进行零样本分类。
  3. 该方法无需额外训练,在保护隐私的同时,提升了罕见事件分类性能,优于现有技术。

📝 摘要(中文)

罕见事件由于发生频率低,数据量不足,导致深度学习技术难以估计其数据分布。开放词汇模型为图像分类提供了一种创新方法。与传统模型不同,这些模型在推理过程中使用自然语言提示将图像分类到任何指定的类别集合中。这些提示通常包含手动制作的模板(例如,“{}的照片”),并用每个类别的名称填充。本文介绍了一种简单而有效的方法,用于生成包含判别特征的高度准确且上下文相关的描述性提示。由于类间差异小和类内差异大,罕见事件检测(尤其是在医学领域)更具挑战性。为了解决这些问题,我们提出了一种新颖的方法,该方法利用领域特定的专家知识来生成定制化的、上下文相关的提示,然后大型语言模型使用这些提示进行图像分类。我们的零样本、保护隐私的方法无需额外训练即可增强罕见事件分类,优于最先进的技术。

🔬 方法详解

问题定义:论文旨在解决罕见事件医学图像分类中,由于数据量少导致传统深度学习方法失效的问题。现有方法依赖大量标注数据进行训练,而罕见事件数据匮乏,且医学图像类间差异小、类内差异大,使得分类更加困难。此外,手动设计的Prompt模板难以捕捉罕见事件的判别特征,影响分类精度。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解能力,结合领域专家知识,自动生成针对特定罕见事件的定制化Prompt。通过精心设计的Prompt,引导LLM关注图像中与罕见事件相关的关键特征,从而实现零样本分类。这种方法避免了对罕见事件数据进行额外训练,同时提高了分类的准确性和鲁棒性。

技术框架:该方法主要包含以下几个阶段:1) 领域专家知识获取:收集关于罕见事件的医学知识,例如病理特征、诊断标准等。2) Prompt生成:利用LLM,结合领域专家知识,生成包含判别性特征的定制化Prompt。Prompt的设计需要考虑罕见事件的上下文信息,以及与其他类别的区分度。3) 零样本分类:将生成的Prompt输入到预训练的视觉-语言模型(如CLIP),模型根据Prompt对医学图像进行分类。

关键创新:该方法最重要的创新点在于利用LLM自动生成定制化Prompt,从而将领域专家知识融入到零样本分类过程中。与传统的手动设计Prompt相比,自动生成的Prompt能够更好地捕捉罕见事件的判别特征,提高分类精度。此外,该方法无需对罕见事件数据进行额外训练,具有良好的泛化能力和隐私保护性。

关键设计:Prompt生成过程是关键。具体实现细节未知,但可以推测可能使用了诸如条件生成、知识图谱等技术来指导LLM生成Prompt。损失函数和网络结构方面,由于是零样本学习,主要依赖预训练模型的性能,没有额外的损失函数或网络结构设计。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文提出了一种新颖的零样本罕见事件医学图像分类方法,该方法利用LLM生成定制化Prompt,无需额外训练即可超越现有技术。具体性能数据未知,但摘要强调该方法优于state-of-the-art技术,表明其在罕见事件分类方面具有显著优势。

🎯 应用场景

该研究成果可应用于多种罕见疾病的辅助诊断,例如罕见肿瘤、罕见感染等。通过自动生成定制化Prompt,可以有效提高罕见疾病的诊断准确率,减少误诊和漏诊。此外,该方法还可以推广到其他领域,例如罕见工业缺陷检测、罕见自然灾害识别等,具有广泛的应用前景。

📄 摘要(原文)

Rare events, due to their infrequent occurrences, do not have much data, and hence deep learning techniques fail in estimating the distribution for such data. Open-vocabulary models represent an innovative approach to image classification. Unlike traditional models, these models classify images into any set of categories specified with natural language prompts during inference. These prompts usually comprise manually crafted templates (e.g., 'a photo of a {}') that are filled in with the names of each category. This paper introduces a simple yet effective method for generating highly accurate and contextually descriptive prompts containing discriminative characteristics. Rare event detection, especially in medicine, is more challenging due to low inter-class and high intra-class variability. To address these, we propose a novel approach that uses domain-specific expert knowledge on rare events to generate customized and contextually relevant prompts, which are then used by large language models for image classification. Our zero-shot, privacy-preserving method enhances rare event classification without additional training, outperforming state-of-the-art techniques.