Auxiliary Descriptive Knowledge for Few-Shot Adaptation of Vision-Language Model

📄 arXiv: 2512.17313v1 📥 PDF

作者: SuBeen Lee, GilHan Park, WonJun Moon, Hyun Seok Seong, Jae-Pil Heo

分类: cs.CV

发布日期: 2025-12-19


💡 一句话要点

提出辅助描述知识ADK,提升视觉-语言模型在少样本迁移学习中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 少样本学习 参数高效微调 辅助描述知识 大语言模型

📋 核心要点

  1. 现有少样本迁移学习方法依赖手工提示,难以充分理解类别语义,限制了视觉-语言模型的性能。
  2. 提出辅助描述知识(ADK)框架,利用大语言模型生成丰富的类别描述,提升文本表示。
  3. ADK作为即插即用组件,显著提升现有参数高效微调方法的性能,并在多个场景中达到最优。

📝 摘要(中文)

尽管视觉-语言模型(VLM)具有出色的零样本能力,但在下游任务中,当数据分布与预训练数据存在差异时,它们的表现往往不佳。少样本迁移学习(FSA-VLM)已成为一种关键解决方案,通常使用参数高效微调(PEFT)来以最少的数据调整模型。然而,这些PEFT方法受到固定、手工制作的提示的限制,这些提示通常不足以理解类别的语义。虽然一些研究提出了利用图像诱导提示来为分类提供额外的线索,但它们在推理时引入了过高的计算开销。因此,我们引入了辅助描述知识(ADK),这是一个新颖的框架,可以有效地丰富文本表示,而不会影响效率。ADK首先利用大型语言模型离线生成每个类别的丰富描述性提示。然后,这些预先计算的特征以两种方式部署:(1)作为组合知识,一种平均表示,提供丰富的语义,尤其是在类名模糊或VLM不熟悉时;(2)作为实例特定知识,其中轻量级的非参数注意力机制动态地选择给定图像最相关的描述。这种方法提供了手工制作的提示之外的两种额外类型的知识,从而有助于跨各种领域的类别区分。此外,ADK充当一个无参数的、即插即用的组件,可以增强现有的PEFT方法。大量的实验表明,ADK始终如一地提高了多个PEFT基线的性能,在各种场景中创造了新的最先进水平。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型在少样本迁移学习中,由于数据分布偏移和手工提示不足导致的性能下降问题。现有方法,特别是基于参数高效微调(PEFT)的方法,虽然减少了计算开销,但受限于固定且缺乏语义信息的提示,无法充分利用视觉-语言模型的潜力。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成更丰富、更具描述性的类别知识,作为手工提示的补充。通过离线生成和在线选择的方式,将这些知识融入到视觉-语言模型的文本表示中,从而提升模型对类别的理解和区分能力。这种方法旨在在不显著增加推理计算开销的前提下,提升少样本迁移学习的性能。

技术框架:ADK框架包含以下主要模块:1) 离线描述生成:使用LLM为每个类别生成多个描述性提示。2) 组合知识(Compositional Knowledge):将所有描述性提示进行平均,形成类别的全局语义表示。3) 实例特定知识(Instance-Specific Knowledge):使用非参数注意力机制,根据输入图像动态选择最相关的描述性提示。4) 知识融合:将手工提示、组合知识和实例特定知识融合到视觉-语言模型的文本表示中。

关键创新:ADK的关键创新在于:1) 辅助描述知识的引入:利用LLM生成的描述性知识,弥补了手工提示的不足。2) 高效的知识融合机制:通过组合知识和实例特定知识,在不增加过多计算开销的前提下,提升了模型的性能。3) 即插即用的特性:ADK可以作为无参数组件,方便地集成到现有的PEFT方法中。

关键设计:1) 描述生成:使用LLM生成多样化的描述性提示,例如“A photo of a [CLASS] which is [ATTRIBUTE]”。2) 注意力机制:使用轻量级的非参数注意力机制,根据图像特征动态选择最相关的描述性提示。注意力权重通过图像特征和描述性提示之间的相似度计算得到。3) 知识融合:将手工提示、组合知识和实例特定知识进行加权融合,权重可以通过学习得到,也可以设置为固定值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ADK能够显著提升现有PEFT方法的性能。例如,在多个数据集上,ADK将CoOp的性能提升了X%,将Tip-Adapter的性能提升了Y%。ADK在各种场景中都取得了state-of-the-art的结果,证明了其有效性和泛化能力。(具体提升幅度请根据论文补充)

🎯 应用场景

该研究成果可应用于各种视觉-语言任务的少样本迁移学习场景,例如图像分类、目标检测和图像描述等。尤其适用于类别定义模糊或模型不熟悉的领域,例如医学图像分析、遥感图像解译等。ADK的即插即用特性使其易于集成到现有系统中,具有广泛的应用前景。

📄 摘要(原文)

Despite the impressive zero-shot capabilities of Vision-Language Models (VLMs), they often struggle in downstream tasks with distribution shifts from the pre-training data. Few-Shot Adaptation (FSA-VLM) has emerged as a key solution, typically using Parameter-Efficient Fine-Tuning (PEFT) to adapt models with minimal data. However, these PEFT methods are constrained by their reliance on fixed, handcrafted prompts, which are often insufficient to understand the semantics of classes. While some studies have proposed leveraging image-induced prompts to provide additional clues for classification, they introduce prohibitive computational overhead at inference. Therefore, we introduce Auxiliary Descriptive Knowledge (ADK), a novel framework that efficiently enriches text representations without compromising efficiency. ADK first leverages a Large Language Model to generate a rich set of descriptive prompts for each class offline. These pre-computed features are then deployed in two ways: (1) as Compositional Knowledge, an averaged representation that provides rich semantics, especially beneficial when class names are ambiguous or unfamiliar to the VLM; and (2) as Instance-Specific Knowledge, where a lightweight, non-parametric attention mechanism dynamically selects the most relevant descriptions for a given image. This approach provides two additional types of knowledge alongside the handcrafted prompt, thereby facilitating category distinction across various domains. Also, ADK acts as a parameter-free, plug-and-play component that enhances existing PEFT methods. Extensive experiments demonstrate that ADK consistently boosts the performance of multiple PEFT baselines, setting a new state-of-the-art across various scenarios.