Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models

📄 arXiv: 2404.04514v1 📥 PDF

作者: Songtao Jiang, Yan Zhang, Chenyi Zhou, Yeying Jin, Yang Feng, Jian Wu, Zuozhu Liu

分类: cs.CL

发布日期: 2024-04-06


💡 一句话要点

提出联合视觉与文本提示以提升多模态大语言模型的物体感知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉问答 物体感知 联合提示 深度学习

📋 核心要点

  1. 现有的多模态大语言模型在视觉问答任务中存在整合视觉与文本信息的能力不足,导致物体感知效果不佳。
  2. 本文提出的VTPrompt方法通过结合视觉和文本提示,利用细致的视觉信息来增强模型的物体感知能力。
  3. 实验结果显示,VTPrompt在多个基准测试中显著提升了GPT-4V和Gemini Pro的性能,尤其在MME和MMB上表现突出。

📝 摘要(中文)

多模态大语言模型(MLLMs)如GPT-4V和Gemini Pro在视觉问答(VQA)中面临挑战,尤其是在物体导向的感知任务中,要求对物体身份、位置或属性进行细致理解。现有方法在有效整合复杂视觉线索与文本信息方面能力有限,且可能出现物体幻觉。本文提出了一种新方法——联合视觉与文本提示(VTPrompt),通过细致的视觉信息增强MLLMs在VQA中的能力,特别是物体导向的感知。VTPrompt将视觉和文本提示结合,提取文本问题中的关键概念,并利用检测模型在图像中突出相关物体作为视觉提示。处理后的图像与文本提示一起输入MLLMs,以生成更准确的答案。实验结果表明,该方法在多个基准测试中显著提升了性能。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型在视觉问答任务中对物体身份、位置和属性的细致理解不足的问题。现有方法在整合复杂视觉线索与文本信息时存在局限性,导致物体感知效果不理想。

核心思路:VTPrompt方法的核心在于将视觉和文本提示相结合,通过提取文本问题中的关键概念并利用检测模型突出相关物体,从而增强模型的物体感知能力。这样的设计旨在提高模型对视觉信息的理解和处理能力。

技术框架:该方法的整体架构包括两个主要模块:首先是视觉提示模块,通过检测模型识别图像中的相关物体并生成视觉提示;其次是文本提示模块,提取文本问题中的关键信息。处理后的图像和文本提示共同输入到多模态大语言模型中,生成最终答案。

关键创新:VTPrompt的最大创新在于其将视觉和文本提示有效融合,解决了现有方法在物体感知任务中对细节理解不足的问题。这种融合方式使得模型能够更好地利用视觉信息,显著提升了回答的准确性。

关键设计:在实现过程中,关键设计包括选择合适的检测模型以确保视觉提示的准确性,以及优化文本提示的提取策略。此外,损失函数的设计也考虑了视觉和文本信息的权重,以确保两者的有效结合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VTPrompt在多个基准测试中显著提升了模型性能,特别是在MME上,GPT-4V的得分提升达183.5分,而在MMB上,GPT-4V和Gemini Pro的性能分别提升了8.17%和15.69%。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、自动驾驶、机器人视觉等,能够在需要高精度物体识别和理解的场景中发挥重要作用。未来,该方法有望推动多模态学习的发展,提高人工智能在复杂环境中的感知能力。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) such as GPT-4V and Gemini Pro face challenges in achieving human-level perception in Visual Question Answering (VQA), particularly in object-oriented perception tasks which demand fine-grained understanding of object identities, locations or attributes, as indicated by empirical findings. This is mainly due to their limited capability to effectively integrate complex visual cues with textual information and potential object hallucinations. In this paper, we present a novel approach, Joint Visual and Text Prompting (VTPrompt), that employs fine-grained visual information to enhance the capability of MLLMs in VQA, especially for object-oriented perception. VTPrompt merges visual and text prompts to extract key concepts from textual questions and employs a detection model to highlight relevant objects as visual prompts in images. The processed images alongside text prompts are subsequently fed into MLLMs to produce more accurate answers. Our experiments with GPT-4V and Gemini Pro, on three benchmarks, i.e., MME , MMB and POPE, demonstrate significant improvements. Particularly, our method led to a score improvement of up to 183.5 for GPT-4V on MME and enhanced MMB performance by 8.17\% for GPT-4V and 15.69\% for Gemini Pro.