Trust but Verify: Programmatic VLM Evaluation in the Wild

📄 arXiv: 2410.13121v1 📥 PDF

作者: Viraj Prabhu, Senthil Purushwalkam, An Yan, Caiming Xiong, Ran Xu

分类: cs.CV, cs.AI

发布日期: 2024-10-17


💡 一句话要点

提出程序化VLM评估方法以解决视觉语言模型的响应验证问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 程序化评估 多模态学习 场景图 开放式查询

📋 核心要点

  1. 现有的视觉语言模型在处理开放式查询时,常常生成不准确的响应,导致难以评估其真实性和有用性。
  2. 论文提出了程序化VLM评估(PROVE),通过构建高保真场景图并生成可验证的QA对,来系统性地评估模型响应。
  3. 实验结果显示,绝大多数VLM在有用性与真实性之间的平衡能力较差,突显了该评估方法的必要性。

📝 摘要(中文)

视觉语言模型(VLMs)在处理视觉查询时常常生成看似合理但实际上错误的响应。准确量化这些幻觉在开放式查询中的影响非常具有挑战性,因为这需要对每个响应中的声明进行视觉验证。为此,本文提出了程序化VLM评估(PROVE),一种新的基准评估范式。通过为大型语言模型(LLM)提供高保真度的场景图表示,并提示其生成多样化的问题-答案对及可执行的程序,构建了一个包含10.5k个具有挑战性的视觉基础QA对的基准。接着,提出了一种程序化评估策略,在统一的场景图框架内评估模型响应的有用性和真实性。实验表明,现有VLM在这两者之间的平衡能力普遍较差。

🔬 方法详解

问题定义:本文旨在解决视觉语言模型在开放式查询中生成不准确响应的问题。现有方法难以有效量化这些响应的真实性和有用性,尤其是在需要视觉验证的情况下。

核心思路:提出程序化VLM评估(PROVE),通过构建高保真度的场景图,并利用大型语言模型生成可验证的QA对,来系统性地评估模型的响应。

技术框架:整体流程包括三个主要模块:首先,利用高保真图像生成场景图;其次,基于场景图生成多样化的QA对;最后,设计程序化评估策略,评估模型响应的有用性和真实性。

关键创新:最重要的创新在于引入了程序化评估策略,使得对模型响应的评估不仅限于主观判断,而是通过可执行的程序进行验证,从而提高了评估的客观性和准确性。

关键设计:在设计中,使用了高保真度的场景图表示,确保生成的QA对具有视觉基础;同时,评估策略结合了有用性和真实性的度量,形成了统一的评估框架。实验中对不同VLM的表现进行了系统比较,揭示了其在这两者之间的权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用PROVE评估的VLM在有用性和真实性之间的平衡能力普遍较差,只有少数模型能够在这两者之间取得良好平衡。这一发现强调了PROVE作为评估工具的重要性,并为未来的模型改进提供了方向。

🎯 应用场景

该研究的潜在应用领域包括自动问答系统、图像检索和多模态交互等。通过提供一种可靠的评估方法,能够帮助开发更为准确和实用的视觉语言模型,从而推动相关技术在实际场景中的应用和发展。

📄 摘要(原文)

Vision-Language Models (VLMs) often generate plausible but incorrect responses to visual queries. However, reliably quantifying the effect of such hallucinations in free-form responses to open-ended queries is challenging as it requires visually verifying each claim within the response. We propose Programmatic VLM Evaluation (PROVE), a new benchmarking paradigm for evaluating VLM responses to open-ended queries. To construct PROVE, we provide a large language model (LLM) with a high-fidelity scene-graph representation constructed from a hyper-detailed image caption, and prompt it to generate diverse question-answer (QA) pairs, as well as programs that can be executed over the scene graph object to verify each QA pair. We thus construct a benchmark of 10.5k challenging but visually grounded QA pairs. Next, to evaluate free-form model responses to queries in PROVE, we propose a programmatic evaluation strategy that measures both the helpfulness and truthfulness of a response within a unified scene graph-based framework. We benchmark the helpfulness-truthfulness trade-offs of a range of VLMs on PROVE, finding that very few are in-fact able to achieve a good balance between the two. Project page: \url{https://prove-explorer.netlify.app/}.