Retrieval-augmented in-context learning for multimodal large language models in disease classification

📄 arXiv: 2505.02087v1 📥 PDF

作者: Zaifu Zhan, Shuang Zhou, Xiaoshan Zhou, Yongkang Xiao, Jun Wang, Jiawen Deng, He Zhu, Yu Hou, Rui Zhang

分类: cs.AI

发布日期: 2025-05-04

备注: 17 Pages, 1 figure, 7 tables


💡 一句话要点

提出RAICL框架,增强多模态大语言模型在疾病分类中的上下文学习能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 疾病分类 上下文学习 检索增强生成 医学影像分析

📋 核心要点

  1. 现有MLLM在疾病分类中上下文学习能力不足,缺乏动态检索信息丰富示例的机制。
  2. 提出RAICL框架,结合RAG和ICL,通过检索相似疾病模式的示例来增强上下文学习。
  3. 实验表明,RAICL在TCGA和IU Chest X-ray数据集上均显著提升了分类准确率。

📝 摘要(中文)

本文旨在通过动态检索信息丰富的示例,增强多模态大语言模型(MLLM)在疾病分类中的上下文学习能力。为此,我们提出了一个检索增强上下文学习(RAICL)框架,该框架集成了检索增强生成(RAG)和上下文学习(ICL),以自适应地选择具有相似疾病模式的示例,从而在MLLM中实现更有效的ICL。具体来说,RAICL利用来自ResNet、BERT、BioBERT和ClinicalBERT等不同编码器的嵌入来检索合适的示例,并构建针对ICL优化的对话提示。我们在两个真实世界的多模态数据集(TCGA和IU Chest X-ray)上评估了该框架,评估了其在多个MLLM(Qwen、Llava、Gemma)、嵌入策略、相似性度量和不同数量的示例上的性能。实验结果表明,RAICL始终提高了分类性能。RAICL为增强MLLM中多模态疾病分类的上下文学习提供了一种高效且可扩展的方法。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在疾病分类任务中,上下文学习(ICL)效果不佳的问题。现有的MLLM在进行ICL时,通常依赖于随机选择的示例,这些示例可能与待分类的样本关联性较弱,导致模型无法有效学习到疾病的特征模式,从而影响分类准确率。

核心思路:论文的核心思路是利用检索增强生成(RAG)技术,动态地从数据集中检索与待分类样本相似的示例,并将这些示例作为上下文信息提供给MLLM,从而增强其上下文学习能力。通过选择与目标样本更相关的示例,模型可以更好地理解疾病的特征,提高分类的准确性和效率。

技术框架:RAICL框架主要包含以下几个模块:1) 嵌入模块:使用不同的编码器(ResNet, BERT, BioBERT, ClinicalBERT)提取图像和文本的嵌入向量。2) 检索模块:基于嵌入向量,使用不同的相似度度量(如欧氏距离、余弦相似度)从数据集中检索与待分类样本最相似的示例。3) 提示构建模块:将检索到的示例构建成对话提示,作为上下文信息输入到MLLM中。4) MLLM推理模块:使用MLLM进行疾病分类,并输出预测结果。

关键创新:RAICL的关键创新在于将RAG和ICL相结合,实现了一种动态的上下文学习方法。与传统的ICL方法相比,RAICL能够自适应地选择与待分类样本相关的示例,从而提高模型的学习效率和分类准确率。此外,RAICL还探索了不同的嵌入策略和相似度度量对检索效果的影响,并针对ICL优化了提示构建方式。

关键设计:在嵌入模块中,论文尝试了多种预训练模型,包括ResNet(用于图像特征提取)和BERT、BioBERT、ClinicalBERT(用于文本特征提取)。在检索模块中,使用了欧氏距离和余弦相似度等不同的相似度度量方法。在提示构建模块中,设计了特定的对话模板,以引导MLLM进行疾病分类。此外,论文还研究了检索示例的数量对模型性能的影响。

🖼️ 关键图片

fig_0

📊 实验亮点

RAICL在TCGA数据集上将准确率从0.7854提高到0.8368,在IU Chest X-ray数据集上从0.7924提高到0.8658。多模态输入优于单模态输入,文本信息比图像信息更有效。欧氏距离在准确率方面表现最佳,而余弦相似度在宏平均F1值方面表现更好。RAICL在不同的MLLM上都表现出一致的改进。

🎯 应用场景

RAICL框架可应用于多种疾病的自动诊断和分类,例如癌症检测、胸部X光片诊断等。该研究有助于提高医疗诊断的效率和准确性,减轻医生的工作负担,并为患者提供更快速、可靠的诊断结果。未来,该框架可以扩展到其他医学影像和文本数据,并与其他AI技术相结合,构建更智能化的医疗诊断系统。

📄 摘要(原文)

Objectives: We aim to dynamically retrieve informative demonstrations, enhancing in-context learning in multimodal large language models (MLLMs) for disease classification. Methods: We propose a Retrieval-Augmented In-Context Learning (RAICL) framework, which integrates retrieval-augmented generation (RAG) and in-context learning (ICL) to adaptively select demonstrations with similar disease patterns, enabling more effective ICL in MLLMs. Specifically, RAICL examines embeddings from diverse encoders, including ResNet, BERT, BioBERT, and ClinicalBERT, to retrieve appropriate demonstrations, and constructs conversational prompts optimized for ICL. We evaluated the framework on two real-world multi-modal datasets (TCGA and IU Chest X-ray), assessing its performance across multiple MLLMs (Qwen, Llava, Gemma), embedding strategies, similarity metrics, and varying numbers of demonstrations. Results: RAICL consistently improved classification performance. Accuracy increased from 0.7854 to 0.8368 on TCGA and from 0.7924 to 0.8658 on IU Chest X-ray. Multi-modal inputs outperformed single-modal ones, with text-only inputs being stronger than images alone. The richness of information embedded in each modality will determine which embedding model can be used to get better results. Few-shot experiments showed that increasing the number of retrieved examples further enhanced performance. Across different similarity metrics, Euclidean distance achieved the highest accuracy while cosine similarity yielded better macro-F1 scores. RAICL demonstrated consistent improvements across various MLLMs, confirming its robustness and versatility. Conclusions: RAICL provides an efficient and scalable approach to enhance in-context learning in MLLMs for multimodal disease classification.