Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features
作者: Chancharik Mitra, Brandon Huang, Tianning Chai, Zhiqiu Lin, Assaf Arbelle, Rogerio Feris, Leonid Karlinsky, Trevor Darrell, Deva Ramanan, Roei Herzig
分类: cs.CV, cs.AI, cs.CL
发布日期: 2024-11-28 (更新: 2025-06-09)
💡 一句话要点
提出稀疏注意力向量(SAVs),提升大模型在少样本视觉-语言分类任务上的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言分类 少样本学习 大型多模态模型 注意力机制 特征提取
📋 核心要点
- 现有大型多模态模型在视觉-语言分类任务中,难以有效提取判别性特征,限制了其在该类任务上的应用。
- 论文提出稀疏注意力向量(SAVs)方法,通过挖掘LMM中稀疏激活的注意力头,提取有效的多模态特征表示。
- 实验表明,SAVs在少样本视觉-语言分类任务上取得了SOTA性能,并具有良好的泛化能力和可扩展性。
📝 摘要(中文)
生成式大型多模态模型(LMMs),如LLaVA和Qwen-VL,在各种视觉-语言(VL)任务中表现出色。尽管性能强大,但LMMs的生成式输出并未针对视觉-语言分类任务(即具有视觉-语言输入和离散标签的任务,如图像分类和多项选择VQA)进行专门优化。利用LMMs解决这些任务的一个关键挑战是从生成式LMMs中提取有用的特征。为了克服这个问题,我们提出了一种利用LMM潜在空间中的多模态特征提取的方法。为此,我们提出了稀疏注意力向量(SAVs)——一种无需微调的方法,它利用LMM中稀疏注意力头激活(少于5%的头)作为强大的特征表示。仅使用少量样本,SAVs在各种视觉-语言分类任务上,与各种少样本和微调基线相比,表现出最先进的性能。我们的实验还表明,SAVs的性能可以随着额外样本的增加而扩展,并推广到类似的任务,从而确立了SAVs作为有效且稳健的多模态特征表示。
🔬 方法详解
问题定义:论文旨在解决如何有效利用大型多模态模型(LMMs)进行视觉-语言分类任务的问题。现有方法,特别是直接使用LMM的生成式输出来进行分类,效果不佳,因为LMM的生成目标与分类任务的目标不一致,导致提取的特征并非最优。此外,微调整个LMM成本高昂,且容易过拟合于少量样本。
核心思路:论文的核心思路是利用LMM内部的注意力机制,特别是那些稀疏激活的注意力头,来提取更具判别性的多模态特征。作者认为,这些稀疏激活的注意力头可能捕捉到了输入图像和文本之间更重要的关联信息,因此可以作为有效的特征表示。
技术框架:SAVs方法无需对LMM进行微调。其主要流程包括:1) 将视觉-语言输入(例如图像和文本提示)输入到LMM中;2) 提取LMM中每个注意力头的激活值;3) 选择激活值最高的少量(例如,少于5%)的注意力头;4) 将这些选定的注意力头的激活值拼接成一个向量,作为SAVs特征表示;5) 使用SAVs特征训练一个简单的分类器(例如,线性分类器)进行分类。
关键创新:该方法最重要的创新点在于发现并利用了LMM中稀疏激活的注意力头作为有效的特征表示。与直接使用LMM的生成式输出或微调整个LMM相比,SAVs方法更加高效,且能够提取更具判别性的特征,从而在少样本分类任务中取得更好的性能。此外,该方法无需微调,降低了计算成本和过拟合的风险。
关键设计:SAVs的关键设计包括:1) 注意力头的选择策略:选择激活值最高的少量注意力头,而不是所有注意力头。这有助于过滤掉噪声信息,并关注更重要的特征;2) 特征向量的构建方式:将选定的注意力头的激活值拼接成一个向量,作为SAVs特征表示。这种简单的拼接方式能够有效地保留各个注意力头的信息;3) 分类器的选择:使用简单的线性分类器进行分类。这有助于降低模型的复杂度,并避免过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAVs方法在多个少样本视觉-语言分类任务上取得了SOTA性能。例如,在某些数据集上,SAVs方法相比于基线方法,准确率提升了超过10%。此外,实验还表明,SAVs方法具有良好的泛化能力和可扩展性,可以应用于不同的LMM和不同的视觉-语言任务。
🎯 应用场景
该研究成果可应用于各种视觉-语言分类任务,例如图像分类、视觉问答(VQA)、自然语言图像检索等。在实际应用中,SAVs方法可以帮助我们更有效地利用大型多模态模型,从而在少样本场景下实现高性能的视觉-语言理解和推理。此外,该方法还可以应用于机器人导航、智能客服等领域,提升系统的智能化水平。
📄 摘要(原文)
Generative Large Multimodal Models (LMMs) like LLaVA and Qwen-VL excel at a wide variety of vision-language (VL) tasks. Despite strong performance, LMMs' generative outputs are not specialized for vision-language classification tasks (i.e., tasks with vision-language inputs and discrete labels) such as image classification and multiple-choice VQA. One key challenge in utilizing LMMs for these tasks is the extraction of useful features from generative LMMs. To overcome this, we propose an approach that leverages multimodal feature extraction from the LMM's latent space. Toward this end, we present Sparse Attention Vectors (SAVs) -- a finetuning-free method that leverages sparse attention head activations (fewer than 5% of the heads) in LMMs as strong feature representations. With only few-shot examples, SAVs demonstrate state-of-the-art performance compared to a variety of few-shot and finetuned baselines on a collection of vision-language classification tasks. Our experiments also imply that SAVs can scale in performance with additional examples and generalize to similar tasks, establishing SAVs as both effective and robust multimodal feature representations.