VISTAQA: Benchmarking Joint Visual Question Answering and Pixel-Level Evidence

作者: Mozhgan Nasr Azadani, Yimu Wang, Yongpeng Zhu, Lihong Chen, Milan Ganai, Sean Sedwards, Marco Pavone, Krzysztof Czarnecki

分类: cs.CV

发布日期: 2026-05-20

💡 一句话要点

VISTAQA：一个用于联合评估视觉问答和像素级证据的新基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 像素级证据 多模态学习 基准测试 可解释性

📋 核心要点

现有的多模态大语言模型评估缺乏对模型预测与视觉证据对齐的明确要求，无法保证推理过程的透明性和可靠性。
VISTAQA基准通过要求模型提供答案的同时，给出像素级别的证据分割，从而实现了答案正确性和视觉证据定位的联合评估。
实验结果表明，即使是最先进的模型在VISTAQA基准上表现也有限，揭示了答案准确性和视觉证据对齐之间存在显著差距。

📝 摘要（中文）

为了在多模态推理中建立模型预测与其支持的视觉证据之间的清晰联系，论文提出了VISTAQA，这是一个综合性的基准，用于联合评估自由形式答案的正确性和视觉问答中像素级证据的定位。VISTAQA包含1157个由专家策划的样本，涵盖六种任务类型和六个视觉领域，范围从直接感知到组合和关系推理。VISTAQA要求模型不仅要正确回答问题，还要提供支持答案的精确分割掩码。它还包括考虑幻觉的示例，即不存在有效的视觉证据。为了支持这种增强的评估，论文引入了GROVE，一种统一的评估指标，通过每个样本的几何平均值结合文本准确性和定位质量来强制执行联合正确性，确保任何一个维度都不能弥补另一个维度的不足。对具有定位意识的模型和具有通用MLLM的混合管道的综合实验表明，即使是最强大的系统在GROVE下的性能也有限，突出了答案准确性和视觉证据对齐之间的巨大差距。

🔬 方法详解

问题定义：现有视觉问答（VQA）基准主要关注答案的正确性，而忽略了模型给出答案所依据的视觉证据。即使模型给出了正确的答案，也可能并非基于图像中的相关信息，而是依赖于语言偏见或幻觉。因此，需要一种能够同时评估答案正确性和视觉证据定位的基准，以提高多模态模型的可靠性和可解释性。

核心思路：VISTAQA的核心思路是要求模型在回答问题的同时，提供像素级别的分割掩码，以指示模型认为与答案相关的视觉区域。通过比较模型提供的分割掩码与人工标注的分割掩码，可以评估模型是否真正理解了图像内容并基于相关信息进行推理。同时，引入了GROVE指标，通过几何平均的方式综合考虑答案准确性和分割质量，避免模型通过牺牲定位精度来提高答案准确率。

技术框架：VISTAQA基准包含以下几个关键组成部分：1) 数据集：包含1157个样本，涵盖六种任务类型和六个视觉领域。2) 评估指标：引入GROVE指标，通过几何平均的方式综合考虑答案准确性和分割质量。3) 评估协议：要求模型在回答问题的同时，提供像素级别的分割掩码。4) 基线模型：评估了多种现有的VQA模型和混合管道，以展示VISTAQA基准的挑战性。

关键创新：VISTAQA的关键创新在于：1) 首次提出了联合评估视觉问答和像素级证据定位的基准。2) 引入了GROVE指标，能够更全面地评估多模态模型的性能。3) 数据集包含了考虑幻觉的示例，能够更好地评估模型的鲁棒性。

关键设计：GROVE指标的计算方式为答案准确率和分割质量（例如，Intersection over Union, IoU）的几何平均数。数据集中的每个样本都包含一个问题、一张图像、一个自由形式的答案以及一个或多个像素级别的分割掩码。为了评估模型对幻觉的抵抗能力，数据集中还包含一些没有有效视觉证据的样本。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的多模态模型在VISTAQA基准上表现也有限，GROVE指标显著低于答案准确率。例如，一些模型在答案准确率上可以达到70%以上，但在GROVE指标上只有30%左右。这表明现有模型在视觉证据定位方面存在显著不足，需要在未来的研究中加以改进。

🎯 应用场景

VISTAQA基准的潜在应用领域包括：提高自动驾驶系统的可靠性，确保系统能够基于正确的视觉信息做出决策；改进医疗图像诊断系统，帮助医生更好地理解诊断结果；增强机器人导航系统的鲁棒性，使其能够更好地理解周围环境。该研究的实际价值在于促进多模态模型的可解释性和可靠性，未来影响在于推动人工智能技术在安全关键领域的应用。

📄 摘要（原文）

Establishing a clear link between model predictions and the visual evidence that supports them is critical for transparency and reliability in multimodal reasoning, yet current multimodal large language model (MLLM) evaluations do not explicitly enforce this alignment. Existing benchmarks assess either textual answer correctness or pixel-level localization in isolation, leaving the coupling of reasoning and grounding an open challenge. We introduce VISTAQA, a comprehensive benchmark for joint evaluation of free-form answer correctness and pixel-level evidence grounding in visual question answering. VISTAQA comprises 1,157 expert-curated samples spanning six task types and six visual domains, ranging from direct perception to compositional and relational reasoning. VISTAQA requires models to not only answer correctly, but to also provide precise segmentation masks that support their answers. It also includes hallucination-aware examples where no valid visual evidence exists. To support this enhanced evaluation, we introduce GROVE, a unified evaluation metric that enforces joint correctness by combining textual accuracy and grounding quality via a per-sample geometric mean, ensuring neither dimension can compensate for deficiencies in the other. Comprehensive experiments across grounding-aware models and hybrid pipelines with general-purpose MLLMs reveal that even the strongest systems achieve limited performance under GROVE, highlighting a substantial gap between answer accuracy and visual evidence alignment.

VISTAQA: Benchmarking Joint Visual Question Answering and Pixel-Level Evidence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理