Trust but Verify: Programmatic VLM Evaluation in the Wild

作者: Viraj Prabhu, Senthil Purushwalkam, An Yan, Caiming Xiong, Ran Xu

分类: cs.CV, cs.AI

发布日期: 2024-10-17

💡 一句话要点

提出程序化VLM评估方法以解决视觉语言模型的响应验证问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 程序化评估 多模态学习 场景图 开放式查询

📋 核心要点

现有的视觉语言模型在处理开放式查询时，常常生成不准确的响应，导致难以评估其真实性和有用性。
论文提出了程序化VLM评估（PROVE），通过构建高保真场景图并生成可验证的QA对，来系统性地评估模型响应。
实验结果显示，绝大多数VLM在有用性与真实性之间的平衡能力较差，突显了该评估方法的必要性。

📝 摘要（中文）

视觉语言模型（VLMs）在处理视觉查询时常常生成看似合理但实际上错误的响应。准确量化这些幻觉在开放式查询中的影响非常具有挑战性，因为这需要对每个响应中的声明进行视觉验证。为此，本文提出了程序化VLM评估（PROVE），一种新的基准评估范式。通过为大型语言模型（LLM）提供高保真度的场景图表示，并提示其生成多样化的问题-答案对及可执行的程序，构建了一个包含10.5k个具有挑战性的视觉基础QA对的基准。接着，提出了一种程序化评估策略，在统一的场景图框架内评估模型响应的有用性和真实性。实验表明，现有VLM在这两者之间的平衡能力普遍较差。

🔬 方法详解

问题定义：本文旨在解决视觉语言模型在开放式查询中生成不准确响应的问题。现有方法难以有效量化这些响应的真实性和有用性，尤其是在需要视觉验证的情况下。

核心思路：提出程序化VLM评估（PROVE），通过构建高保真度的场景图，并利用大型语言模型生成可验证的QA对，来系统性地评估模型的响应。

技术框架：整体流程包括三个主要模块：首先，利用高保真图像生成场景图；其次，基于场景图生成多样化的QA对；最后，设计程序化评估策略，评估模型响应的有用性和真实性。

关键创新：最重要的创新在于引入了程序化评估策略，使得对模型响应的评估不仅限于主观判断，而是通过可执行的程序进行验证，从而提高了评估的客观性和准确性。

关键设计：在设计中，使用了高保真度的场景图表示，确保生成的QA对具有视觉基础；同时，评估策略结合了有用性和真实性的度量，形成了统一的评估框架。实验中对不同VLM的表现进行了系统比较，揭示了其在这两者之间的权衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用PROVE评估的VLM在有用性和真实性之间的平衡能力普遍较差，只有少数模型能够在这两者之间取得良好平衡。这一发现强调了PROVE作为评估工具的重要性，并为未来的模型改进提供了方向。

🎯 应用场景

该研究的潜在应用领域包括自动问答系统、图像检索和多模态交互等。通过提供一种可靠的评估方法，能够帮助开发更为准确和实用的视觉语言模型，从而推动相关技术在实际场景中的应用和发展。

📄 摘要（原文）

Vision-Language Models (VLMs) often generate plausible but incorrect responses to visual queries. However, reliably quantifying the effect of such hallucinations in free-form responses to open-ended queries is challenging as it requires visually verifying each claim within the response. We propose Programmatic VLM Evaluation (PROVE), a new benchmarking paradigm for evaluating VLM responses to open-ended queries. To construct PROVE, we provide a large language model (LLM) with a high-fidelity scene-graph representation constructed from a hyper-detailed image caption, and prompt it to generate diverse question-answer (QA) pairs, as well as programs that can be executed over the scene graph object to verify each QA pair. We thus construct a benchmark of 10.5k challenging but visually grounded QA pairs. Next, to evaluate free-form model responses to queries in PROVE, we propose a programmatic evaluation strategy that measures both the helpfulness and truthfulness of a response within a unified scene graph-based framework. We benchmark the helpfulness-truthfulness trade-offs of a range of VLMs on PROVE, finding that very few are in-fact able to achieve a good balance between the two. Project page: \url{https://prove-explorer.netlify.app/}.

Trust but Verify: Programmatic VLM Evaluation in the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理