CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models

📄 arXiv: 2605.17826v1 📥 PDF

作者: Reem Alzahrani, Hassan Alshanqiti, Bushra Bin Hemid, Zaid Alyafeai, Abdelrahman Eldesokey, Bernard Ghanem

分类: cs.CV, cs.AI

发布日期: 2026-05-18


💡 一句话要点

提出CounterCount框架,诊断视觉语言模型中计数偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 计数偏差 反事实推理 注意力机制 诊断框架

📋 核心要点

  1. 现有视觉语言模型在计数任务中,容易受到语言先验知识的影响,忽略视觉证据。
  2. 提出CounterCount框架,通过构造反事实图像对,诊断模型在计数任务中对先验知识的依赖程度。
  3. 实验表明,现有模型在反事实图像上性能显著下降,通过注意力调制策略可提升反事实计数准确率高达8%。

📝 摘要(中文)

视觉语言模型(VLMs)在多模态推理方面表现出色,但其答案是否基于视觉证据或受语言和世界先验知识驱动尚不清楚。计数提供了一个精确的测试平台:当视觉证据与规范的对象知识冲突时,模型必须依赖图像而非原型计数。我们引入CounterCount,这是一个用于VLMs中反事实计数的诊断框架,由配对的事实和反事实图像组成,这些图像具有编辑过的计数相关属性、经过验证的答案和局部证据注释。对最新的VLMs进行评估,我们发现在事实图像上表现出色,但在反事实属性变化下性能持续下降,表明即使存在矛盾的视觉证据,也依赖于对象级别的先验知识。使用局部注释,我们表明这些失败不仅仅是由于缺少或模糊的视觉证据,而是由于模型低估了对计数相关视觉token的注意力。我们引入了一种统一的推理时注意力调制策略,该策略重新加权选定的视觉token,从而将多个VLMs的反事实计数准确率提高了高达8%。总的来说,CounterCount揭示了先验驱动的计数失败,并为设计未来的VLMs提供了诊断见解。

🔬 方法详解

问题定义:视觉语言模型在多模态任务中表现出色,但在计数任务中,模型容易受到语言先验知识的影响,即模型倾向于根据对物体的固有认知进行计数,而忽略图像中实际存在的视觉证据。现有方法难以有效诊断和解决这一问题。

核心思路:通过构建包含事实图像和反事实图像对的数据集,来评估模型对视觉证据的依赖程度。反事实图像通过编辑计数相关的属性(例如,改变物体的颜色、大小或形状)来与先验知识产生冲突,从而迫使模型更多地依赖视觉信息。

技术框架:CounterCount框架包含以下几个关键组成部分:1)事实图像和反事实图像对的构建;2)对图像对的答案进行验证;3)对图像中与计数相关的区域进行局部证据注释;4)使用构建的数据集评估现有视觉语言模型;5)提出一种推理时注意力调制策略,通过重新加权视觉token来提高反事实计数准确率。

关键创新:该论文的关键创新在于提出了一个诊断框架,能够系统地评估视觉语言模型在计数任务中对先验知识的依赖程度。通过反事实图像的构建,可以有效地揭示模型在视觉推理方面的不足。此外,提出的注意力调制策略能够有效地提高模型在反事实图像上的计数准确率。

关键设计:注意力调制策略的关键在于选择哪些视觉token进行重新加权。论文使用局部证据注释来指导token的选择,即选择与计数相关的区域对应的token进行加权。具体的加权方式未知,但目标是增加模型对这些关键视觉区域的关注,从而减少对先验知识的依赖。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有视觉语言模型在CounterCount数据集的反事实图像上性能显著下降,表明模型过度依赖先验知识。通过提出的注意力调制策略,反事实计数准确率在多个VLMs上提升高达8%,验证了该策略的有效性。该研究揭示了现有模型在视觉推理方面的不足,并为未来的模型设计提供了重要的诊断见解。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在需要精确视觉推理的任务中的性能,例如机器人导航、图像编辑和视觉问答等。通过诊断和缓解模型对先验知识的过度依赖,可以提高模型在复杂和动态环境中的鲁棒性和泛化能力。未来的研究可以进一步探索更有效的注意力调制策略和更全面的反事实图像构建方法。

📄 摘要(原文)

Vision-Language Models (VLMs) excel at multimodal reasoning, yet it remains unclear whether their answers are grounded in visual evidence or driven by learned language and world priors. Counting provides a precise testbed: when visual evidence conflicts with canonical object knowledge, a model must rely on the image rather than a prototypical count. We introduce CounterCount, a diagnostic framework for counterfactual counting in VLMs, consisting of paired factual and counterfactual images with edited count-relevant attributes, verified answers, and localized evidence annotations. Evaluating recent VLMs, we find strong performance on factual images but consistent degradation under counterfactual attribute changes, indicating reliance on object-level priors even when contradictory visual evidence is present. Using localized annotations, we show that these failures are not solely due to missing or ambiguous visual evidence, but to models underweighting attention to count-relevant visual tokens. We introduce a unified inference-time attention modulation strategy that reweights selected visual tokens, improving counterfactual counting accuracy by up to 8% across multiple VLMs. Overall, CounterCount exposes prior-driven counting failures and provides diagnostic insights for designing future VLMs.