Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning

📄 arXiv: 2405.12217v2 📥 PDF

作者: Guanglin Zhou, Zhongyi Han, Shiming Chen, Biwei Huang, Liming Zhu, Salman Khan, Xin Gao, Lina Yao

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-05-20 (更新: 2024-10-14)

备注: 10 pages, 9 figures, 7 tables


💡 一句话要点

提出 InvariantSelectPR,提升大模型在分布偏移下的域自适应能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 上下文学习 分布偏移 领域自适应 对比学习 视觉编码器 医疗影像

📋 核心要点

  1. 现有大型多模态模型在特定领域,如医疗,面临分布偏移挑战,需要领域自适应。
  2. 提出 InvariantSelectPR 方法,利用类条件对比不变性增强视觉编码器,实现更鲁棒的上下文示例选择。
  3. 实验表明,该方法显著提升了LMMs在分布偏移下的适应性,并在医疗数据集上取得了显著的性能提升。

📝 摘要(中文)

本文研究了大型多模态模型(LMMs)在分布偏移下的适应性问题,尤其是在医疗等专业领域。由于微调LMMs参数量巨大,因此探索了上下文学习(ICL)作为一种有效的替代方案。研究发现,基于特征相似性的无监督ICL方法受限于预训练视觉编码器在分布偏移下的性能。为此,本文提出了InvariantSelectPR方法,该方法利用类条件对比不变性(CCI)进行更鲁棒的示例选择。CCI通过增强预训练视觉编码器在不同类别上的区分能力和对领域特定变化的不变性,从而有效地识别和检索信息量最大的示例,进而指导LMMs适应新的查询样本。实验结果表明,InvariantSelectPR显著提高了LMMs的适应性,在基准数据集上取得了显著的性能提升,在Camelyon17数据集上7-shot的准确率提高了34.2%,在HAM10000数据集上7-shot的准确率提高了16.9%。

🔬 方法详解

问题定义:大型多模态模型(LMMs)在通用领域表现出色,但在特定领域(如医疗)面临数据分布偏移问题,导致性能下降。直接微调LMMs成本高昂。现有的基于特征相似性的上下文学习方法,依赖于预训练的视觉编码器,但这些编码器在分布偏移下表现不佳,影响了示例选择的准确性。

核心思路:核心思路是通过增强预训练视觉编码器的鲁棒性,使其在分布偏移下仍能准确提取图像特征,从而选择更合适的上下文示例。具体而言,利用类条件对比不变性(CCI)来训练视觉编码器,使其对同一类别的不同领域图像具有不变性,同时保持不同类别之间的区分性。

技术框架:InvariantSelectPR 的整体框架包含以下几个主要阶段:1) 特征提取:使用预训练的视觉编码器提取查询图像和候选示例的特征。2) CCI增强:利用类条件对比不变性(CCI)对视觉编码器进行微调,增强其鲁棒性。3) 示例选择:基于增强后的特征,计算查询图像与候选示例之间的相似度,选择最相似的K个示例作为上下文。4) 上下文学习:将选择的上下文示例和查询图像输入LMMs,利用LMMs进行预测。

关键创新:关键创新在于引入了类条件对比不变性(CCI)来增强视觉编码器。与传统的对比学习方法不同,CCI 关注的是在类别不变的前提下,学习领域不变的特征表示。这使得编码器能够更好地应对分布偏移,提取更具代表性的特征,从而选择更合适的上下文示例。

关键设计:CCI 的关键设计在于损失函数。损失函数的目标是最小化同一类别下不同领域图像特征之间的距离,同时最大化不同类别图像特征之间的距离。具体而言,可以使用 InfoNCE 损失函数,其中正样本是同一类别下不同领域的图像,负样本是不同类别的图像。此外,还可以使用 margin loss 来进一步增强不同类别之间的区分性。在实验中,作者使用了 ResNet-50 作为视觉编码器,并使用 Adam 优化器进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InvariantSelectPR 在 Camelyon17 和 HAM10000 数据集上分别实现了 34.2% 和 16.9% 的 7-shot 准确率提升,显著优于零样本学习。这表明该方法能够有效提升 LMMs 在分布偏移下的适应性,并为实际应用提供了有力的支持。

🎯 应用场景

该研究成果可应用于医疗影像诊断、遥感图像分析等领域,提升AI模型在数据分布存在差异时的泛化能力。通过更有效地利用上下文信息,可以减少对大量标注数据的依赖,降低模型部署成本,并提高诊断的准确性和可靠性,具有重要的实际应用价值。

📄 摘要(原文)

Recent studies indicate that large multimodal models (LMMs) potentially act as general-purpose assistants and are highly robust against different distributions. Despite this, domain-specific adaptation is still necessary particularly in specialized areas like healthcare. Due to the impracticality of fine-tuning LMMs given their vast parameter space, this work investigates in-context learning (ICL) as an effective alternative for enhancing LMMs' adaptability. Our study addresses this by evaluating an unsupervised ICL method which selects in-context examples through a nearest example search based on feature similarity. We uncover that its effectiveness is limited by the deficiencies of pre-trained vision encoders under distribution shift scenarios. To address these challenges, we propose InvariantSelectPR, a novel method leveraging Class-conditioned Contrastive Invariance (CCI) for more robust demonstration selection. Specifically, CCI enhances pre-trained vision encoders by improving their discriminative capabilities across different classes and ensuring invariance to domain-specific variations. This enhancement allows the encoders to effectively identify and retrieve the most informative examples, which are then used to guide LMMs in adapting to new query samples under varying distributions. Our experiments show that InvariantSelectPR substantially improves the adaptability of LMMs, achieving significant performance gains on benchmark datasets, with a 34.2%$\uparrow$ accuracy increase in 7-shot on Camelyon17 and 16.9%$\uparrow$ increase in 7-shot on HAM10000 compared to the baseline zero-shot performance.