Attention Prompting on Image for Large Vision-Language Models

作者: Runpeng Yu, Weihao Yu, Xinchao Wang

分类: cs.CV, cs.AI

发布日期: 2024-09-25

备注: Website, see https://yu-rp.github.io/api-prompting

💡 一句话要点

提出图像注意力提示方法，提升大视觉语言模型对文本指令的遵循能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 注意力机制 视觉提示 文本查询引导 多模态学习

📋 核心要点

现有视觉提示方法忽略了文本查询，限制了LVLM遵循文本指令的能力，无法有效完成复杂任务。
提出图像注意力提示方法，通过文本查询引导的注意力热图增强图像输入，提升模型对文本指令的理解。
实验表明，该方法在多个视觉-语言基准测试中显著提升了LVLM的性能，例如LLaVA-1.5在MM-Vet上提升了3.8%。

📝 摘要（中文）

与大型语言模型（LLMs）相比，大型视觉语言模型（LVLMs）可以接受图像作为输入，从而展现出更有趣的涌现能力，并在各种视觉-语言任务上表现出令人印象深刻的性能。受到LLMs中文本提示的启发，视觉提示已被探索用于增强LVLMs感知视觉信息的能力。然而，先前的视觉提示技术仅处理视觉输入，而没有考虑文本查询，限制了模型遵循文本指令完成任务的能力。为了填补这一空白，本文提出了一种新的提示技术，名为图像注意力提示（Attention Prompting on Image），它简单地将文本查询引导的注意力热图叠加在原始输入图像上，并有效地增强了LVLM在各种任务上的性能。具体来说，我们使用像CLIP这样的辅助模型为输入图像生成一个依赖于文本查询的注意力热图。然后，热图简单地乘以原始图像的像素值，以获得LVLM的实际输入图像。在各种视觉-语言基准上的大量实验验证了我们技术的有效性。例如，图像注意力提示在MM-Vet和LLaVA-Wild基准上分别提高了LLaVA-1.5 3.8%和2.9%。

🔬 方法详解

问题定义：现有的大型视觉语言模型（LVLMs）在处理视觉信息时，视觉提示方法往往独立于文本查询，导致模型难以根据文本指令聚焦于图像的关键区域，从而影响了其完成复杂视觉-语言任务的能力。现有方法的痛点在于视觉信息和文本信息的融合不够紧密，缺乏一种有效的机制来引导模型关注与文本相关的视觉特征。

核心思路：本文的核心思路是利用文本查询来引导视觉信息的处理。具体来说，通过一个辅助模型（如CLIP）生成一个依赖于文本查询的注意力热图，该热图能够突出显示图像中与文本描述相关的区域。然后，将该热图叠加到原始图像上，从而使LVLM能够更加关注与文本指令相关的视觉信息。这样设计的目的是为了增强LVLM对文本指令的理解和遵循能力，从而提高其在各种视觉-语言任务上的性能。

技术框架：该方法的整体框架包括以下几个主要步骤：1) 输入图像和文本查询；2) 使用辅助模型（如CLIP）生成文本查询引导的注意力热图；3) 将注意力热图与原始图像进行像素级别的乘法操作，得到增强后的图像；4) 将增强后的图像输入到LVLM中进行处理，完成相应的视觉-语言任务。

关键创新：该方法最重要的技术创新点在于提出了图像注意力提示（Attention Prompting on Image）的概念，即将文本查询引导的注意力机制引入到视觉提示中。与传统的视觉提示方法相比，该方法能够更加有效地融合视觉信息和文本信息，使LVLM能够更好地理解和遵循文本指令。

关键设计：关键设计在于注意力热图的生成方式。论文使用CLIP模型来计算图像和文本查询之间的相似度，并将相似度作为注意力权重。具体来说，首先将图像和文本查询分别编码成向量表示，然后计算这两个向量之间的余弦相似度。最后，将余弦相似度归一化到0到1之间，作为注意力热图的像素值。此外，热图与原始图像的融合方式也比较简单，直接采用像素级别的乘法操作，保证了计算效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的图像注意力提示方法在多个视觉-语言基准测试中取得了显著的性能提升。例如，在MM-Vet基准测试中，使用该方法后，LLaVA-1.5的性能提升了3.8%；在LLaVA-Wild基准测试中，LLaVA-1.5的性能提升了2.9%。这些结果验证了该方法在增强LVLM对文本指令的遵循能力方面的有效性。

🎯 应用场景

该研究成果可广泛应用于各种需要视觉-语言交互的场景，例如智能客服、图像编辑、视觉问答、机器人导航等。通过提升LVLM对文本指令的理解能力，可以实现更加智能和人性化的交互体验，具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Compared with Large Language Models (LLMs), Large Vision-Language Models (LVLMs) can also accept images as input, thus showcasing more interesting emergent capabilities and demonstrating impressive performance on various vision-language tasks. Motivated by text prompting in LLMs, visual prompting has been explored to enhance LVLMs' capabilities of perceiving visual information. However, previous visual prompting techniques solely process visual inputs without considering text queries, limiting the models' ability to follow text instructions to complete tasks. To fill this gap, in this work, we propose a new prompting technique named Attention Prompting on Image, which just simply overlays a text-query-guided attention heatmap on the original input image and effectively enhances LVLM on various tasks. Specifically, we generate an attention heatmap for the input image dependent on the text query with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel values of the original image to obtain the actual input image for the LVLM. Extensive experiments on various vison-language benchmarks verify the effectiveness of our technique. For example, Attention Prompting on Image improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks, respectively.

Attention Prompting on Image for Large Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理