Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis

📄 arXiv: 2409.00106v1 📥 PDF

作者: Aishik Nagar, Shantanu Jaiswal, Cheston Tan

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2024-08-27

备注: 21 pages


💡 一句话要点

通过合成数据集,系统性评测视觉语言模型在零样本视觉推理上的能力与局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 零样本学习 视觉推理 合成数据集 思维链提示

📋 核心要点

  1. 现有VQA基准测试混淆了视觉推理与世界知识,且推理步骤有限,难以评估VLMs的真实视觉推理能力。
  2. 论文通过构建合成数据集,控制世界知识需求,并分析不同推理步骤下的VLMs性能,从而系统评估其视觉推理能力。
  3. 实验表明,文本场景描述优于视觉嵌入,且CoT提示仅在大模型上有效,揭示了VLMs在复杂视觉推理上的局限性。

📝 摘要(中文)

视觉语言模型(VLMs)在真实世界的视觉问答(VQA)基准测试中展现了令人印象深刻的零样本和少样本性能,暗示了它们作为视觉推理引擎的能力。然而,这些基准测试混淆了“纯粹”的视觉推理与世界知识,并且问题涉及的推理步骤数量有限。因此,VLMs表面上的视觉推理性能是源于其世界知识,还是源于实际的视觉推理能力,仍然不清楚。为了消除这种歧义,我们通过合成数据集系统地评估和剖析VLMs的零样本视觉推理能力,这些数据集需要最少的世界知识,并允许对广泛的推理步骤进行分析。我们关注零样本视觉推理的两个新颖方面:i) 评估将场景信息作为视觉嵌入或纯文本场景描述传递给VLM底层的大型语言模型(LLM)的影响,以及ii) 比较思维链提示(CoT)与标准提示对于零样本视觉推理的有效性。我们发现,当提供文本场景描述时,底层LLM的表现始终优于提供视觉嵌入。特别是在PTR数据集上,准确率提高了18%。我们还发现,CoT提示仅对于相对较大的GPT-3.5-Turbo(175B)模型表现出略微更好的性能,而对于较小规模的模型则表现更差。这表明,即使世界知识有限,LLM在较大规模下也出现了视觉推理的CoT能力。总的来说,我们发现VLMs和LLMs在更复杂的视觉推理能力方面存在局限性,并强调了LLMs在视觉推理中可以发挥的重要作用。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLMs)在视觉推理能力评估中存在的歧义性问题。现有的视觉问答(VQA)基准测试往往混淆了“纯粹”的视觉推理与世界知识,并且问题涉及的推理步骤数量有限,难以区分VLMs的性能是源于其视觉推理能力还是世界知识。因此,如何更准确地评估VLMs的视觉推理能力是一个关键问题。

核心思路:论文的核心思路是通过构建合成数据集来控制世界知识的需求,并允许对不同推理步骤进行分析,从而系统地评估和剖析VLMs的零样本视觉推理能力。通过比较不同场景信息输入方式(视觉嵌入 vs. 文本描述)和不同提示策略(标准提示 vs. 思维链提示)对VLMs性能的影响,揭示其在视觉推理方面的优势和局限性。

技术框架:论文主要采用实验分析的方法,没有提出新的模型架构。其技术框架主要包括以下几个阶段:1) 构建合成数据集,该数据集需要最少的世界知识,并允许对广泛的推理步骤进行分析。2) 选择不同的VLMs作为评估对象,包括不同规模的模型。3) 设计实验,比较将场景信息作为视觉嵌入或纯文本场景描述传递给VLM底层的大型语言模型(LLM)的效果。4) 比较思维链提示(CoT)与标准提示对于零样本视觉推理的有效性。5) 分析实验结果,总结VLMs在视觉推理方面的优势和局限性。

关键创新:论文的关键创新在于:1) 使用合成数据集来隔离视觉推理能力和世界知识,从而更准确地评估VLMs的视觉推理能力。2) 系统地比较了不同场景信息输入方式和不同提示策略对VLMs性能的影响,揭示了LLM在视觉推理中的重要作用。

关键设计:论文的关键设计包括:1) 合成数据集的设计,需要保证数据集需要最少的世界知识,并允许对广泛的推理步骤进行分析。2) 实验设计,需要比较将场景信息作为视觉嵌入或纯文本场景描述传递给VLM底层的大型语言模型(LLM)的效果,以及比较思维链提示(CoT)与标准提示对于零样本视觉推理的有效性。3) 评估指标的选择,需要能够准确地反映VLMs的视觉推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当提供文本场景描述时,底层LLM的表现始终优于提供视觉嵌入,在PTR数据集上准确率提高了18%。CoT提示仅对于较大的GPT-3.5-Turbo(175B)模型表现出略微更好的性能,而对于较小规模的模型则表现更差。这些结果揭示了VLMs和LLMs在复杂视觉推理能力方面的局限性,并强调了LLMs在视觉推理中可以发挥的重要作用。

🎯 应用场景

该研究成果可应用于开发更可靠的视觉推理系统,例如在机器人导航、智能监控、图像理解等领域。通过更准确地评估和提升VLMs的视觉推理能力,可以提高这些系统在复杂环境中的适应性和决策能力,从而实现更智能化的应用。

📄 摘要(原文)

Vision-language models (VLMs) have shown impressive zero- and few-shot performance on real-world visual question answering (VQA) benchmarks, alluding to their capabilities as visual reasoning engines. However, the benchmarks being used conflate "pure" visual reasoning with world knowledge, and also have questions that involve a limited number of reasoning steps. Thus, it remains unclear whether a VLM's apparent visual reasoning performance is due to its world knowledge, or due to actual visual reasoning capabilities. To clarify this ambiguity, we systematically benchmark and dissect the zero-shot visual reasoning capabilities of VLMs through synthetic datasets that require minimal world knowledge, and allow for analysis over a broad range of reasoning steps. We focus on two novel aspects of zero-shot visual reasoning: i) evaluating the impact of conveying scene information as either visual embeddings or purely textual scene descriptions to the underlying large language model (LLM) of the VLM, and ii) comparing the effectiveness of chain-of-thought prompting to standard prompting for zero-shot visual reasoning. We find that the underlying LLMs, when provided textual scene descriptions, consistently perform better compared to being provided visual embeddings. In particular, 18% higher accuracy is achieved on the PTR dataset. We also find that CoT prompting performs marginally better than standard prompting only for the comparatively large GPT-3.5-Turbo (175B) model, and does worse for smaller-scale models. This suggests the emergence of CoT abilities for visual reasoning in LLMs at larger scales even when world knowledge is limited. Overall, we find limitations in the abilities of VLMs and LLMs for more complex visual reasoning, and highlight the important role that LLMs can play in visual reasoning.