Real Images, Worse Judgments: Evaluating Vision-Language Models on Concreteness and Imagery

📄 arXiv: 2605.27315v1 📥 PDF

作者: Yifan Jiang, Ruoxi Ning, Sheng Yao, Freda Shi

分类: cs.CL

发布日期: 2026-05-26


💡 一句话要点

研究表明:视觉-语言模型在词汇判断中易受图像背景干扰,降低与人类判断的一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 词汇判断 具体性 意象性 视觉信息干扰

📋 核心要点

  1. 现有的视觉-语言模型在词汇判断任务中,容易受到图像中无关信息的干扰,影响判断准确性。
  2. 论文提出通过分析模型对具体性和意象性词汇的判断,评估模型对视觉信息的利用能力。
  3. 实验表明,真实图像背景会降低模型与人类判断的一致性,尤其是在视觉信息不相关时,指示模型关注文本可缓解此问题。

📝 摘要(中文)

视觉-语言模型(VLMs)通常被认为可以通过视觉输入来提升语言理解能力。本文通过考察VLMs在词汇判断中能否区分有用的视觉证据和偶然的图像上下文,来检验这一假设。研究使用了人类对具体性和意象性的评分,因为这些评分涵盖了从抽象和低意象词到具体和高意象词等不同视觉相关性的词汇。研究发现,真实的图像上下文并没有带来一致的增益,反而常常损害与人类评分的一致性,尤其是在视觉证据最不相关时。通过探测和典型相关分析,以及归因案例研究,发现真实的图像上下文与表征转移和对虚假视觉线索的更高敏感性相关,同时削弱了目标词汇属性的可恢复性。进一步表明,在推理时指示模型仅关注文本内容可以减少这种退化,尤其是在这些脆弱的子集上。研究结果表明,当前经过指令调优的VLMs需要更好地校准视觉上下文何时应该影响词汇判断。

🔬 方法详解

问题定义:视觉-语言模型(VLMs)在理解语言时,通常会利用视觉信息。然而,现实图像中包含大量与词汇语义无关的背景信息,这些信息可能会干扰模型对词汇的理解,导致判断偏差。现有方法缺乏对VLMs如何区分有用视觉信息和无关背景信息的深入研究,以及对这种干扰的有效缓解措施。

核心思路:本文的核心思路是通过分析VLMs在词汇具体性和意象性判断任务中的表现,来评估其对视觉信息的利用能力。具体性和意象性与视觉相关性密切相关,因此可以作为评估模型是否过度依赖或误解视觉信息的指标。通过比较模型在有无真实图像上下文下的表现,以及分析模型内部表征的变化,来揭示视觉信息对词汇判断的影响。

技术框架:该研究主要采用以下技术框架: 1. 数据集构建:使用包含人类对词汇具体性和意象性评分的数据集。 2. 模型选择:选择经过指令调优的VLMs作为研究对象。 3. 实验设计:设计实验,比较模型在有无真实图像上下文下的词汇判断表现。 4. 表征分析:使用探测和典型相关分析等方法,分析模型内部表征的变化。 5. 归因分析:通过归因方法,分析模型关注的视觉区域。 6. 干预策略:在推理时指示模型仅关注文本内容,观察对模型表现的影响。

关键创新:该研究的关键创新在于: 1. 问题视角:从词汇具体性和意象性的角度,评估VLMs对视觉信息的利用能力,提出了一个新颖的评估视角。 2. 实验设计:设计了对比实验,有效揭示了真实图像上下文对词汇判断的负面影响。 3. 分析方法:结合探测、典型相关分析和归因分析等多种方法,深入分析了视觉信息对模型内部表征的影响。 4. 干预策略:提出了在推理时指示模型仅关注文本内容的干预策略,有效缓解了视觉干扰。

关键设计: 1. 具体性和意象性评分:使用人类对词汇的具体性和意象性评分作为评估标准,这些评分涵盖了从抽象到具体的词汇,能够有效评估模型对不同视觉相关性的词汇的判断能力。 2. 指令调优的VLMs:选择经过指令调优的VLMs,因为这些模型通常被认为具有更好的语言理解能力和视觉信息利用能力,更能体现视觉信息带来的影响。 3. 对比实验:设计了有无真实图像上下文的对比实验,通过比较模型在这两种情况下的表现,来评估真实图像上下文对词汇判断的影响。 4. 干预策略:在推理时,通过指令明确告知模型只关注文本信息,以此来验证视觉信息干扰的假设,并尝试缓解这种干扰。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,真实图像上下文通常会损害VLMs与人类评分的一致性,尤其是在视觉证据最不相关时。通过指示模型仅关注文本内容,可以减少这种退化,尤其是在这些脆弱的子集上。例如,在抽象词汇的判断中,模型在仅使用文本信息的情况下,与人类判断的一致性得到了显著提升。

🎯 应用场景

该研究成果可应用于提升视觉-语言模型在各种需要精确理解词汇语义的任务中的表现,例如图像描述生成、视觉问答、以及基于视觉信息的文本推理等。通过更好地校准模型对视觉信息的利用,可以减少模型对无关视觉信息的依赖,提高模型的鲁棒性和泛化能力,从而在实际应用中获得更可靠的结果。

📄 摘要(原文)

Visual inputs are often assumed to improve language understanding in multimodal models. We examine this assumption by asking whether vision-language models (VLMs) can distinguish useful visual evidence from incidental image context in lexical judgments. We use human concreteness and imagery ratings because they span words with varying expected visual relevance, from abstract and low-imagery words to concrete and high-imagery words. We find that real-image contexts do not yield consistent gains and often hurt alignment with human ratings, most sharply when visual evidence is least relevant. Through probing and canonical correlation analysis, complemented by an attribution case study, we find that real-image contexts are associated with representational shifts and greater sensitivity to spurious visual cues, coinciding with weaker recoverability of the targeted lexical properties. We further show that instructing models to focus solely on textual content at inference time can reduce this degradation, with the clearest gains on these vulnerable subsets. Our findings suggest that current instruction-tuned VLMs need better calibration of when visual context should inform lexical judgments.