Love Me, Love My Label: Rethinking the Role of Labels in Prompt Retrieval for Visual In-Context Learning
作者: Tianci Luo, Haohao Pan, Jinpeng Wang, Niu Lian, Xinrui Chen, Bin Chen, Shu-Tao Xia, Chun Yuan
分类: cs.CV, cs.IR, cs.MM
发布日期: 2026-04-07
💡 一句话要点
LaPR:面向视觉上下文学习,提出标签感知的提示检索框架,提升任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉上下文学习 提示检索 标签感知 混合专家 对比学习
📋 核心要点
- 现有视觉上下文学习方法在提示检索时主要关注图像视觉相似性,忽略了标签信息,导致检索到标签不一致的提示,影响性能。
- LaPR框架通过图像-标签联合表示和混合专家机制,显式地将标签信息融入提示检索过程,实现标签感知的提示选择。
- 实验结果表明,LaPR在分割、检测和着色等任务上均取得了显著提升,并具有良好的泛化能力,验证了标签利用的重要性。
📝 摘要(中文)
视觉上下文学习(VICL)通过示例提示引导视觉基础模型处理多项任务。提示的选择对VICL性能影响显著,是关键挑战。现有工作主要关注提示图像,忽略了标签。研究表明,视觉相似但标签不一致的提示会降低VICL性能,而查询和提示之间更高的标签一致性通常带来更好的VICL结果。基于此,我们提出了标签感知的提示检索框架LaPR,强调标签在提示选择中的作用。LaPR首先设计图像-标签联合表示,显式地结合标签信息。其次,为了处理测试时查询标签不可用的情况,我们引入了混合专家机制到双编码器中,并采用查询自适应路由。每个专家捕获特定的标签模式,路由推断查询自适应的混合权重,帮助学习标签感知的表示。我们精心设计了专家和路由的交替优化方案,分别使用VICL性能引导的对比损失和标签引导的对比损失。大量实验表明,LaPR在上下文分割、检测和着色任务上取得了显著且一致的改进。此外,LaPR在不同的特征提取器和交叉验证场景中表现出良好的泛化能力,表明了标签利用在VICL提示检索中的重要性。
🔬 方法详解
问题定义:视觉上下文学习(VICL)中,如何选择合适的提示(prompt)对模型性能至关重要。现有方法主要基于图像的视觉相似性进行提示检索,忽略了标签信息。然而,视觉相似的图像可能对应不同的标签,导致检索到的提示与查询样本的标签不一致,从而降低VICL的性能。因此,需要一种能够有效利用标签信息的提示检索方法,以提高VICL的准确性和鲁棒性。
核心思路:LaPR的核心思路是将标签信息显式地融入到提示检索过程中,从而实现标签感知的提示选择。具体来说,LaPR首先构建图像-标签联合表示,将图像和标签信息编码到同一向量空间中。然后,利用混合专家机制,学习查询自适应的标签感知表示,即使在测试时查询标签不可用的情况下,也能有效地利用标签信息进行提示检索。
技术框架:LaPR框架主要包含以下几个模块:1) 图像-标签联合表示模块:将提示图像和对应的标签信息编码成联合表示。2) 双编码器模块:包含两个编码器,分别用于编码查询图像和提示图像。3) 混合专家模块:包含多个专家,每个专家负责学习特定的标签模式。4) 查询自适应路由模块:根据查询图像的特征,动态地选择专家的权重。5) 损失函数模块:包含VICL性能引导的对比损失和标签引导的对比损失,用于优化模型参数。整体流程是,首先利用图像-标签联合表示模块对提示集进行编码,然后利用双编码器模块和混合专家模块对查询图像进行编码,最后利用查询自适应路由模块选择专家的权重,并利用损失函数模块优化模型参数。
关键创新:LaPR的关键创新在于:1) 提出了图像-标签联合表示,显式地将标签信息融入到提示检索过程中。2) 引入了混合专家机制和查询自适应路由,即使在测试时查询标签不可用的情况下,也能有效地利用标签信息。3) 设计了VICL性能引导的对比损失和标签引导的对比损失,用于优化模型参数。与现有方法相比,LaPR能够更有效地利用标签信息,从而提高VICL的准确性和鲁棒性。
关键设计:在图像-标签联合表示模块中,可以使用预训练的视觉模型(如CLIP)提取图像特征,并使用词嵌入模型(如Word2Vec)提取标签特征,然后将两者拼接或融合。在混合专家模块中,可以设置多个专家,每个专家负责学习特定的标签模式。在查询自适应路由模块中,可以使用softmax函数计算专家的权重。在损失函数模块中,VICL性能引导的对比损失可以鼓励模型学习到能够提高VICL性能的表示,标签引导的对比损失可以鼓励模型学习到标签感知的表示。专家和路由器的训练采用交替优化策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LaPR在上下文分割、检测和着色任务上取得了显著且一致的改进。例如,在上下文分割任务中,LaPR相比于基线方法提升了5%以上的mIoU。此外,LaPR在不同的特征提取器和交叉验证场景中表现出良好的泛化能力,验证了标签利用在VICL提示检索中的重要性。
🎯 应用场景
LaPR框架可广泛应用于各种视觉上下文学习任务,例如图像分割、目标检测、图像着色等。该方法能够有效利用标签信息,提高模型在少样本或零样本场景下的泛化能力。此外,LaPR还可以应用于机器人视觉、自动驾驶等领域,提升智能系统的感知能力。
📄 摘要(原文)
Visual in-context learning (VICL) enables visual foundation models to handle multiple tasks by steering them with demonstrative prompts. The choice of such prompts largely influences VICL performance, standing out as a key challenge. Prior work has made substantial progress on prompt retrieval and reranking strategies, but mainly focuses on prompt images while overlooking labels. We reveal these approaches sometimes get visually similar but label-inconsistent prompts, which potentially degrade VICL performance. On the other hand, higher label consistency between query and prompts preferably indicates stronger VICL results. Motivated by these findings, we develop a framework named LaPR (Label-aware Prompt Retrieval), which highlights the role of labels in prompt selection. Our framework first designs an image-label joint representation for prompts to incorporate label cues explicitly. Besides, to handle unavailable query labels at test time, we introduce a mixture-of-expert mechanism to the dual encoders with query-adaptive routing. Each expert is expected to capture a specific label mode, while the router infers query-adaptive mixture weights and helps to learn label-aware representation. We carefully design alternative optimization for experts and router, with a VICL performance-guided contrastive loss and a label-guided contrastive loss, respectively. Extensive experiments show promising and consistent improvement of LaPR on in-context segmentation, detection, and colorization tasks. Moreover, LaPR generalizes well across feature extractors and cross-fold scenarios, suggesting the importance of label utilization in prompt retrieval for VICL. Code is available atthis https URL.