Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts
作者: Debarshi Brahma, Anuska Roy, Soma Biswas
分类: cs.CV, cs.LG
发布日期: 2025-05-21
备注: Published in TMLR (2025)
💡 一句话要点
提出PromptMargin,通过多模态边际正则化提升视觉语言模型在分布偏移下的少样本学习能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 提示调优 少样本学习 分布偏移 边际正则化
📋 核心要点
- 现有方法难以有效微调视觉-语言模型,在分布偏移和少样本情况下易过拟合,且预训练数据不可用导致性能评估困难。
- PromptMargin通过选择性数据增强和多模态边际正则化,增强模型对目标数据集的适应性,提升类间区分度。
- 实验结果表明,PromptMargin在多个基准数据集上优于现有方法,验证了其在分布偏移下的少样本学习有效性。
📝 摘要(中文)
近年来,像CLIP和ALIGN这样的大规模视觉-语言预训练模型在各种数据集上表现出了卓越的零样本泛化能力。本文进一步研究了这些模型在目标数据集上进行适配的能力,这些目标数据集与模型的训练数据在分布和类别上存在显著差异,并且仅使用目标数据集中的少量标记样本。在这种情况下,由于过拟合和泛化能力丧失等问题,微调大型预训练模型具有挑战性,并且在之前的文献中没有得到充分的探索。由于这些模型的预训练数据不可用,因此很难理解它们在各种下游数据集上的性能。首先,我们尝试回答以下问题:给定一个带有少量标记样本的目标数据集,通过分析通用的视觉-语言嵌入空间,我们能否估计进一步微调是否可以提高性能?基于此分析,我们提出了一种新的提示调优方法PromptMargin,用于直接在少量目标样本上调整大规模VLM。PromptMargin有效地调整了文本和视觉提示,并具有两个主要模块:1) 首先,我们使用选择性增强策略来补充每个任务中的少量训练样本;2) 此外,为了确保在不熟悉的类名存在的情况下进行鲁棒训练,我们使用一种新的多模态边际正则化器来增加类间边际,以提高类判别能力。在十五个目标基准数据集上进行的广泛实验和分析表明,所提出的框架优于应用于此设置的现有最先进方法。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型在分布偏移和少样本学习场景下的微调问题。现有方法直接微调大型预训练模型容易过拟合,且由于目标数据集与预训练数据差异大,泛化能力下降。此外,预训练数据通常不可用,难以评估模型在特定下游任务上的性能。
核心思路:论文的核心思路是通过提示调优(Prompt Tuning)的方式,仅调整少量参数,避免对整个模型进行微调,从而降低过拟合风险。同时,引入多模态边际正则化器,增大类间距离,提高模型在不熟悉的类名下的鲁棒性。
技术框架:PromptMargin框架包含两个主要模块:1) 选择性数据增强模块:针对每个任务的少量训练样本,采用选择性的数据增强策略,扩充训练集,提高模型的泛化能力。2) 多模态边际正则化模块:通过引入多模态边际正则化器,增大不同类别之间的距离,提高模型对类别的区分能力,尤其是在类名不熟悉的情况下。整体流程是,首先使用选择性数据增强扩充数据集,然后利用PromptMargin进行提示调优,并结合多模态边际正则化器进行训练。
关键创新:论文的关键创新在于提出了PromptMargin,它是一种结合选择性数据增强和多模态边际正则化的提示调优方法。与传统的微调方法相比,PromptMargin仅调整少量参数,降低了过拟合风险。与现有的提示调优方法相比,PromptMargin引入了多模态边际正则化器,提高了模型在分布偏移下的鲁棒性。
关键设计:选择性数据增强策略根据不同任务的特点选择合适的增强方法。多模态边际正则化器的具体形式未知,但其目标是增大类间距离,可以使用hinge loss或类似的损失函数来实现。文本和视觉提示的具体形式未知,但通常是可学习的向量或矩阵。损失函数由分类损失和边际正则化损失组成,通过调整权重平衡两者之间的关系。
🖼️ 关键图片
📊 实验亮点
论文在15个目标基准数据集上进行了实验,结果表明PromptMargin优于现有的最先进方法。具体的性能提升数据未知,但摘要中强调了其有效性。实验结果验证了PromptMargin在分布偏移和少样本学习场景下的优越性。
🎯 应用场景
该研究成果可应用于各种视觉-语言任务,尤其是在数据稀缺或分布偏移的情况下,例如医学图像诊断、遥感图像分析、以及在机器人领域中,帮助机器人理解和执行复杂的指令。该方法能够提升模型在实际应用中的鲁棒性和泛化能力,降低对大量标注数据的依赖。
📄 摘要(原文)
Recently, Vision-Language foundation models like CLIP and ALIGN, which are pre-trained on large-scale data have shown remarkable zero-shot generalization to diverse datasets with different classes and even domains. In this work, we take a step further and analyze whether these models can be adapted to target datasets having very different distributions and classes compared to what these models have been trained on, using only a few labeled examples from the target dataset. In such scenarios, finetuning large pretrained models is challenging due to problems of overfitting as well as loss of generalization, and has not been well explored in prior literature. Since, the pre-training data of such models are unavailable, it is difficult to comprehend the performance on various downstream datasets. First, we try to answer the question: Given a target dataset with a few labelled examples, can we estimate whether further fine-tuning can enhance the performance compared to zero-shot evaluation? by analyzing the common vision-language embedding space. Based on the analysis, we propose a novel prompt-tuning method, PromptMargin for adapting such large-scale VLMs directly on the few target samples. PromptMargin effectively tunes the text as well as visual prompts for this task, and has two main modules: 1) Firstly, we use a selective augmentation strategy to complement the few training samples in each task; 2) Additionally, to ensure robust training in the presence of unfamiliar class names, we increase the inter-class margin for improved class discrimination using a novel Multimodal Margin Regularizer. Extensive experiments and analysis across fifteen target benchmark datasets, with varying degrees of distribution shifts from natural images, shows the effectiveness of the proposed framework over the existing state-of-the-art approaches applied to this setting. github.com/debarshigit/PromptMargin.