See or Recall: A Sanity Check for the Role of Vision in Solving Visualization Question Answer Tasks with Multimodal LLMs

📄 arXiv: 2504.09809v2 📥 PDF

作者: Zhimin Li, Haichao Miao, Xinyuan Yan, Valerio Pascucci, Matthew Berger, Shusen Liu

分类: cs.HC, cs.AI

发布日期: 2025-04-14 (更新: 2025-04-21)


💡 一句话要点

提出VisQA数据集的健全性检查框架,区分多模态LLM的视觉推理与知识回忆能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 可视化问答 大型语言模型 健全性检查 视觉推理 知识回忆 数据可视化 模型评估

📋 核心要点

  1. 现有VisQA评估方法难以区分MLLM是通过视觉推理还是简单地回忆知识来回答问题,导致评估结果可能无法真实反映模型的可视化理解能力。
  2. 论文提出一个健全性检查框架,通过规则决策树和健全性检查表,分离MLLM在VisQA任务中的视觉处理和知识回忆两种能力。
  3. 该框架能够验证VisQA数据集的有效性,揭示模型在回答问题时是真正依赖视觉信息,还是受到知识回忆或归纳偏见的影响。

📝 摘要(中文)

多模态大型语言模型(MLLM)的最新发展使语言模型能够联合推理视觉和语言。这使得MLLM能够感知和回答关于各种设计和任务的数据可视化的问题。将MLLM应用于广泛的可视化任务需要我们正确评估它们的能力,而最常见的评估方法是通过测量模型的可视化推理能力,类似于我们评估人类对可视化的理解(例如,可视化素养)。然而,我们发现在可视化问答(VisQA)的背景下,MLLM感知和推理可视化的方式与人类处理相同问题的方式根本不同。在评估过程中,即使没有可视化,模型也可以正确回答大部分可视化测试问题,无论是否提供任何选择选项。我们假设语言模型中编码的大量知识允许事实回忆,从而取代了从视觉信号中寻找信息的需求。这引发了人们的担忧,即当前的VisQA评估可能无法完全捕捉模型的可视化推理能力。为了解决这个问题,我们提出了一个全面的健全性检查框架,该框架集成了基于规则的决策树和一个健全性检查表,以区分“看”(视觉处理)和“回忆”(依赖先验知识)的影响。这验证了VisQA数据集的评估,突出了模型真正“看到”的地方,受到事实回忆的积极或消极影响,或者依赖于归纳偏差进行问题回答。我们的研究强调了在使用MLLM时,在设计未来的可视化理解研究中需要仔细考虑。

🔬 方法详解

问题定义:现有的可视化问答(VisQA)评估方法存在一个关键问题:无法区分多模态大型语言模型(MLLM)是通过视觉信息理解来回答问题,还是仅仅依赖于其预训练过程中学习到的知识进行回忆。这意味着,即使模型没有真正“看到”可视化,也可能正确回答问题,从而导致对模型可视化推理能力的过高估计。现有方法的痛点在于缺乏一种有效的机制来 disentangle 视觉信息和知识回忆的影响。

核心思路:论文的核心思路是设计一个健全性检查框架,该框架能够系统地分析MLLM在VisQA任务中的行为,并判断其回答问题的方式是基于视觉信息,还是基于知识回忆。该框架通过引入规则和检查表,模拟人类在回答VisQA问题时的思考过程,从而识别出模型可能存在的“作弊”行为(即不依赖视觉信息而直接回答问题)。这样设计的目的是为了更准确地评估MLLM的真实可视化推理能力。

技术框架:该健全性检查框架主要包含两个核心组件:一个基于规则的决策树和一个健全性检查表。首先,决策树用于根据问题的类型和模型的回答,初步判断模型是否可能依赖于知识回忆。然后,健全性检查表提供了一系列具体的检查项,用于更深入地分析模型的行为,例如,检查模型在没有可视化输入的情况下是否仍然能够正确回答问题。整个流程旨在系统地识别和量化知识回忆对VisQA结果的影响。

关键创新:该论文最重要的技术创新点在于提出了一个系统性的、可操作的健全性检查框架,用于评估MLLM在VisQA任务中的真实视觉推理能力。与以往的研究不同,该框架不仅关注模型的准确率,更关注模型是如何获得答案的。通过区分视觉推理和知识回忆,该框架能够更准确地评估MLLM的可视化理解能力,并为未来的VisQA数据集设计和模型评估提供指导。

关键设计:决策树的设计基于对VisQA问题的类型和模型回答的分析。例如,对于需要从可视化中提取具体数值的问题,如果模型在没有可视化输入的情况下仍然能够给出正确的答案,则可以初步判断模型可能依赖于知识回忆。健全性检查表包含一系列具体的检查项,例如,检查模型在改变可视化元素的颜色或位置后,是否仍然能够正确回答问题。这些检查项旨在测试模型是否真正理解了可视化,而不是简单地记住了一些预先存在的知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了一个健全性检查框架,能够有效区分MLLM在VisQA任务中的视觉推理和知识回忆能力。实验结果表明,许多现有的VisQA数据集存在问题,模型在没有视觉输入的情况下也能正确回答相当一部分问题。该框架能够帮助研究人员识别这些问题,并构建更可靠的VisQA数据集。

🎯 应用场景

该研究成果可应用于评估和改进多模态大型语言模型在数据可视化领域的应用。通过健全性检查,可以更准确地评估模型的可视化推理能力,并指导模型的设计和训练,使其更好地理解和利用视觉信息。此外,该方法还可以用于构建更可靠的VisQA数据集,避免数据集中的偏差对模型评估产生误导。

📄 摘要(原文)

Recent developments in multimodal large language models (MLLM) have equipped language models to reason about vision and language jointly. This permits MLLMs to both perceive and answer questions about data visualization across a variety of designs and tasks. Applying MLLMs to a broad range of visualization tasks requires us to properly evaluate their capabilities, and the most common way to conduct evaluation is through measuring a model's visualization reasoning capability, analogous to how we would evaluate human understanding of visualizations (e.g., visualization literacy). However, we found that in the context of visualization question answering (VisQA), how an MLLM perceives and reasons about visualizations can be fundamentally different from how humans approach the same problem. During the evaluation, even without visualization, the model could correctly answer a substantial portion of the visualization test questions, regardless of whether any selection options were provided. We hypothesize that the vast amount of knowledge encoded in the language model permits factual recall that supersedes the need to seek information from the visual signal. It raises concerns that the current VisQA evaluation may not fully capture the models' visualization reasoning capabilities. To address this, we propose a comprehensive sanity check framework that integrates a rule-based decision tree and a sanity check table to disentangle the effects of "seeing" (visual processing) and "recall" (reliance on prior knowledge). This validates VisQA datasets for evaluation, highlighting where models are truly "seeing", positively or negatively affected by the factual recall, or relying on inductive biases for question answering. Our study underscores the need for careful consideration in designing future visualization understanding studies when utilizing MLLMs.