VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal Models

📄 arXiv: 2312.04087v1 📥 PDF

作者: Zongjie Li, Chaozheng Wang, Chaowei Liu, Pingchuan Ma, Daoyuan Wu, Shuai Wang, Cuiyun Gao

分类: cs.CV, cs.AI

发布日期: 2023-12-07

备注: 13 pages


💡 一句话要点

VRPTEST:评估大型多模态模型中视觉指代提示的基准数据集与自动化评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉指代提示 大型多模态模型 基准数据集 自动化评估 人机交互 软件变异测试 视觉问答

📋 核心要点

  1. 现有方法依赖文本描述或坐标进行人机交互,不够自然灵活,视觉指代提示作为一种新型交互方式有潜力。
  2. 论文构建VRPTEST基准数据集,涵盖多种视觉任务和提示策略,用于全面评估LMMs在视觉指代提示下的性能。
  3. 实验结果表明,专有模型优于开源模型,但提示策略的选择对LMMs的准确性有显著影响,范围从-17.5%到+7.3%。

📝 摘要(中文)

随着大型多模态模型(LMMs)的快速发展,视觉指代提示作为一种新型提示方法,在增强多模态系统中的人机交互方面显示出巨大潜力。与传统的文本描述或坐标相比,它提供了一种更自然、更灵活的人机交互方式。然而,视觉指代提示的分类仍然不明确,其对LMMs性能的影响尚未经过正式检验。本研究首次对LMMs使用各种视觉指代提示策略进行了全面分析。我们引入了一个名为VRPTEST的基准数据集,包含3个不同的视觉任务和2,275张图像,涵盖了各种提示策略的组合。利用VRPTEST,我们对八个版本的知名开源和专有基础模型(包括GPT-4V的两个早期版本)进行了全面评估。我们开发了一种基于软件变异测试技术的自动化评估框架,无需人工干预或手动标注即可评估LMMs的准确性。结果表明,目前的专有模型通常优于开源模型,平均准确率提高了22.70%;但仍有改进空间。此外,我们的定量分析表明,提示策略的选择会显著影响LMMs的准确性,变化范围从-17.5%到+7.3%。进一步的案例研究表明,适当的视觉指代提示策略可以提高LMMs对上下文和位置信息的理解,而不合适的策略可能会导致答案拒绝。我们还提供了关于最小化视觉指代提示对LMMs负面影响的见解。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)在视觉指代提示下的性能评估问题。现有方法缺乏统一的评估标准和数据集,难以系统性地分析不同视觉指代提示策略对LMMs性能的影响。此外,手动标注评估成本高昂,效率低下。

核心思路:论文的核心思路是构建一个包含多种视觉任务和提示策略的基准数据集VRPTEST,并开发一个基于软件变异测试技术的自动化评估框架。通过VRPTEST,可以系统性地评估不同LMMs在不同视觉指代提示下的性能,而自动化评估框架则可以降低评估成本,提高评估效率。

技术框架:整体框架包括数据收集与标注、模型评估和结果分析三个主要阶段。数据收集与标注阶段构建了VRPTEST数据集,包含3个视觉任务和多种视觉指代提示策略。模型评估阶段使用VRPTEST数据集对LMMs进行评估,并利用自动化评估框架计算模型的准确率。结果分析阶段对实验结果进行定量和定性分析,探讨不同提示策略对LMMs性能的影响。

关键创新:论文的关键创新在于:1) 首次提出了视觉指代提示的评估问题,并构建了相应的基准数据集VRPTEST;2) 开发了一种基于软件变异测试技术的自动化评估框架,无需人工干预即可评估LMMs的准确性。与现有方法相比,该方法更加系统、高效、客观。

关键设计:VRPTEST数据集包含三种视觉任务:目标检测、视觉问答和图像描述。每种任务都包含多种视觉指代提示策略,例如使用边界框、分割掩码、关键点等。自动化评估框架使用软件变异测试技术生成一系列变异图像,并根据LMMs在原始图像和变异图像上的输出差异来评估模型的准确性。具体而言,通过设计不同的变异算子,模拟LMMs可能出现的错误类型,从而更全面地评估模型的鲁棒性。

📊 实验亮点

实验结果表明,专有模型(如GPT-4V)通常优于开源模型,平均准确率提高了22.70%。然而,提示策略的选择对LMMs的准确性有显著影响,变化范围从-17.5%到+7.3%。这表明,选择合适的视觉指代提示策略对于提高LMMs的性能至关重要。

🎯 应用场景

该研究成果可应用于开发更智能、更自然的人机交互系统。例如,在智能家居领域,用户可以通过视觉指代提示与智能设备进行交互,例如“打开电视上显示的那个节目”。在机器人领域,机器人可以根据用户的视觉指代指令执行任务,例如“把桌子上的那个红色的杯子递给我”。

📄 摘要(原文)

With recent advancements in Large Multimodal Models (LMMs) across various domains, a novel prompting method called visual referring prompting has emerged, showing significant potential in enhancing human-computer interaction within multimodal systems. This method offers a more natural and flexible approach to human interaction with these systems compared to traditional text descriptions or coordinates. However, the categorization of visual referring prompting remains undefined, and its impact on the performance of LMMs has yet to be formally examined. In this study, we conduct the first comprehensive analysis of LMMs using a variety of visual referring prompting strategies. We introduce a benchmark dataset called VRPTEST, comprising 3 different visual tasks and 2,275 images, spanning diverse combinations of prompt strategies. Using VRPTEST, we conduct a comprehensive evaluation of eight versions of prominent open-source and proprietary foundation models, including two early versions of GPT-4V. We develop an automated assessment framework based on software metamorphic testing techniques to evaluate the accuracy of LMMs without the need for human intervention or manual labeling. We find that the current proprietary models generally outperform the open-source ones, showing an average accuracy improvement of 22.70%; however, there is still potential for improvement. Moreover, our quantitative analysis shows that the choice of prompt strategy significantly affects the accuracy of LMMs, with variations ranging from -17.5% to +7.3%. Further case studies indicate that an appropriate visual referring prompting strategy can improve LMMs' understanding of context and location information, while an unsuitable one might lead to answer rejection. We also provide insights on minimizing the negative impact of visual referring prompting on LMMs.