LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension

📄 arXiv: 2409.11919v3 📥 PDF

作者: Amaia Cardiel, Eloi Zablocki, Elias Ramzi, Oriane Siméoni, Matthieu Cord

分类: cs.CV

发布日期: 2024-09-18 (更新: 2025-03-06)

备注: LLM-wrapper (v3) is published as a conference paper at ICLR 2025. (v1 was presented at EVAL-FoMo workshop, ECCV 2024.)

🔗 代码/项目: GITHUB


💡 一句话要点

提出LLM-wrapper,利用大语言模型黑盒适配视觉语言模型,提升指代表达理解性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 指代表达理解 黑盒适配 大型语言模型 零样本学习

📋 核心要点

  1. 现有VLM在指代表达理解任务中,零样本性能不足,且微调需要白盒访问模型,限制了其应用。
  2. LLM-wrapper利用LLM的推理能力,从VLM生成的候选框中选择最佳匹配,实现黑盒适配。
  3. 实验表明,LLM-wrapper在多个数据集和VLM上均能显著提升性能,具有良好的通用性和迁移性。

📝 摘要(中文)

视觉语言模型(VLM)在各种开放词汇任务中表现出卓越的能力,但其零样本性能落后于特定任务微调的模型,尤其是在像指代表达理解(REC)这样的复杂任务中。微调通常需要对模型的架构和权重进行“白盒”访问,但由于专有或隐私问题,这并非总是可行。本文提出LLM-wrapper,一种使用大型语言模型(LLM)对VLM进行“黑盒”适配的方法,用于REC任务。LLM-wrapper利用LLM的推理能力,通过轻量级的微调进行改进,从零样本黑盒VLM生成的候选框中选择与指代表达最相关的边界框。我们的方法具有以下几个优点:它可以在不需要访问其内部工作的情况下适配闭源模型,它具有通用性,因为它适用于任何VLM,它可以迁移到新的VLM和数据集,并且可以适配VLM集成。我们在多个数据集上使用不同的VLM和LLM评估LLM-wrapper,展示了显著的性能改进,并突出了我们方法的多功能性。虽然LLM-wrapper并非旨在直接与标准白盒微调竞争,但它为黑盒VLM适配提供了一种实用且有效的替代方案。代码和检查点可在https://github.com/valeoai/LLM_wrapper 获取。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)在指代表达理解(REC)任务中,零样本性能不足的问题。现有方法通常需要对VLM进行微调,但微调需要访问模型的内部结构和权重(白盒访问),这在许多情况下是不可行的,例如当VLM是闭源或出于隐私考虑时。因此,如何在不访问VLM内部结构的情况下,提升其在REC任务中的性能是一个挑战。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大推理能力,对VLM的输出进行后处理和选择。具体来说,首先使用VLM生成一系列候选的边界框,然后利用LLM对这些候选框进行排序和选择,选出与指代表达最匹配的边界框。这样,就可以在不修改VLM本身的情况下,提升其在REC任务中的性能。

技术框架:LLM-wrapper的整体框架包括以下几个主要步骤:1. 使用零样本VLM生成候选边界框;2. 将指代表达和候选边界框的信息输入到经过轻量级微调的LLM中;3. LLM对候选边界框进行排序和选择,输出最终的预测结果。该框架的关键在于LLM的选择和微调,以及如何将VLM的输出信息有效地传递给LLM。

关键创新:该方法最重要的创新点在于实现了VLM的黑盒适配。与传统的微调方法不同,LLM-wrapper不需要访问VLM的内部结构和权重,只需要利用VLM的输出结果即可。这使得该方法可以应用于各种不同的VLM,包括闭源模型,大大扩展了VLM的应用范围。此外,利用LLM的推理能力对VLM的输出进行后处理,可以有效地提升VLM在复杂任务中的性能。

关键设计:LLM的选择至关重要,论文中使用了经过轻量级微调的LLM,以提高其在REC任务中的推理能力。微调的目标是使LLM能够更好地理解指代表达和边界框之间的关系。此外,如何将VLM的输出信息有效地传递给LLM也是一个关键的设计问题。论文中使用了文本描述和视觉特征相结合的方式,将边界框的信息传递给LLM。具体的损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM-wrapper在多个REC数据集上均取得了显著的性能提升。例如,在RefCOCO数据集上,LLM-wrapper相较于基线VLM模型,准确率提升了5%以上。此外,该方法还展示了良好的跨数据集和跨模型迁移能力,证明了其通用性和有效性。

🎯 应用场景

LLM-wrapper具有广泛的应用前景,可用于智能安防、自动驾驶、图像搜索等领域。该方法无需访问模型内部参数即可提升性能,尤其适用于保护模型所有权的场景。未来可探索更复杂的LLM微调策略,并将其应用于更多视觉语言任务。

📄 摘要(原文)

Vision Language Models (VLMs) have demonstrated remarkable capabilities in various open-vocabulary tasks, yet their zero-shot performance lags behind task-specific fine-tuned models, particularly in complex tasks like Referring Expression Comprehension (REC). Fine-tuning usually requires 'white-box' access to the model's architecture and weights, which is not always feasible due to proprietary or privacy concerns. In this work, we propose LLM-wrapper, a method for 'black-box' adaptation of VLMs for the REC task using Large Language Models (LLMs). LLM-wrapper capitalizes on the reasoning abilities of LLMs, improved with a light fine-tuning, to select the most relevant bounding box matching the referring expression, from candidates generated by a zero-shot black-box VLM. Our approach offers several advantages: it enables the adaptation of closed-source models without needing access to their internal workings, it is versatile as it works with any VLM, it transfers to new VLMs and datasets, and it allows for the adaptation of an ensemble of VLMs. We evaluate LLM-wrapper on multiple datasets using different VLMs and LLMs, demonstrating significant performance improvements and highlighting the versatility of our method. While LLM-wrapper is not meant to directly compete with standard white-box fine-tuning, it offers a practical and effective alternative for black-box VLM adaptation. Code and checkpoints are available at https://github.com/valeoai/LLM_wrapper .