Your Vision-Language Model Can't Even Count to 20: Exposing the Failures of VLMs in Compositional Counting

作者: Xuyang Guo, Zekai Huang, Zhenmei Shi, Zhao Song, Jiahao Zhang

分类: cs.CV, cs.AI

发布日期: 2025-10-06

💡 一句话要点

VLMCountBench揭示视觉语言模型在组合计数任务上的显著缺陷

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 组合计数 基准测试 VLMCountBench 模型评估

📋 核心要点

现有视觉语言模型在复杂视觉推理任务中表现出色，但其计数能力仍有待考察。
论文提出VLMCountBench基准，专注于评估VLMs在组合计数任务中的性能。
实验表明，VLMs在单一形状计数上表现良好，但在组合形状计数上存在显著缺陷。

📝 摘要（中文）

视觉语言模型（VLMs）因其在网络规模视觉语言数据上训练获得的强大能力而备受关注。这些模型在图像理解、视频理解、复杂视觉推理和具身智能等任务中表现出色。然而，一个基本问题仍然存在：VLMs能否正确计数物体？本文提出了一个简单而有效的基准测试VLMCountBench，该基准在极简设置下，仅使用基本几何形状（如三角形、圆形）及其组合，专门关注计数任务，避免其他因素的干扰。我们采用严格的自变量控制，并系统地研究了颜色、大小和提示优化等简单属性的影响。实验结果表明，当只存在一种形状时，VLMs可以可靠地计数，但当多种形状组合时（即组合计数），它们会表现出明显的失败。这突出了当前VLMs的一个基本经验限制，并为未来的研究指明了重要方向。

🔬 方法详解

问题定义：论文旨在评估现有视觉语言模型（VLMs）在组合计数任务中的能力。现有VLMs虽然在多种视觉语言任务中表现出色，但其基本的计数能力，尤其是在需要区分不同类型物体并分别计数的情况下，尚未得到充分验证。现有方法缺乏对VLMs计数能力的针对性评估，并且容易受到其他因素的干扰。

核心思路：论文的核心思路是设计一个简单、可控的基准测试，即VLMCountBench，通过控制图像中物体的形状、颜色、大小等属性，以及提示语的设计，来系统地评估VLMs在组合计数任务中的性能。该基准旨在隔离计数能力，避免其他视觉推理能力的干扰，从而更准确地评估VLMs的计数能力。

技术框架：VLMCountBench基准测试包含以下几个主要组成部分：1) 图像生成模块：生成包含不同数量、形状、颜色和大小的几何图形的图像。2) 提示语生成模块：生成用于引导VLMs进行计数的提示语，例如“图中共有多少个三角形？”。3) 模型评估模块：将生成的图像和提示语输入到VLMs中，并评估其计数结果的准确性。4) 变量控制模块：通过控制图像中物体的属性（如颜色、大小）和提示语的设计，来研究这些因素对VLMs计数性能的影响。

关键创新：该论文的关键创新在于提出了VLMCountBench基准测试，该基准测试专门针对VLMs的组合计数能力进行评估，并采用严格的变量控制方法，从而能够更准确地评估VLMs的计数能力。此外，该论文还揭示了现有VLMs在组合计数任务上的显著缺陷，为未来的研究指明了方向。

关键设计：VLMCountBench的关键设计包括：1) 使用简单的几何形状（如三角形、圆形）作为计数对象，以减少视觉复杂性。2) 控制图像中物体的颜色、大小等属性，以研究这些因素对VLMs计数性能的影响。3) 设计不同的提示语，以研究提示语对VLMs计数性能的影响。4) 采用准确率作为评估指标，衡量VLMs计数结果的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，当图像中只存在一种形状时，VLMs可以可靠地计数。然而，当图像中包含多种形状时，VLMs的计数准确率显著下降，表明现有VLMs在组合计数任务上存在显著缺陷。例如，在某些组合计数任务中，VLMs的准确率低于50%，远低于人类水平。

🎯 应用场景

该研究成果可应用于评估和改进视觉语言模型的计数能力，尤其是在需要精确计数的场景中，例如自动驾驶、机器人导航、医学图像分析等。通过提高VLMs的计数能力，可以提升其在这些领域的应用效果，并为未来的视觉语言模型研究提供参考。

📄 摘要（原文）

Vision-Language Models (VLMs) have become a central focus of today's AI community, owing to their impressive abilities gained from training on large-scale vision-language data from the Web. These models have demonstrated strong performance across diverse tasks, including image understanding, video understanding, complex visual reasoning, and embodied AI. Despite these noteworthy successes, a fundamental question remains: Can VLMs count objects correctly? In this paper, we introduce a simple yet effective benchmark, VLMCountBench, designed under a minimalist setting with only basic geometric shapes (e.g., triangles, circles) and their compositions, focusing exclusively on counting tasks without interference from other factors. We adopt strict independent variable control and systematically study the effects of simple properties such as color, size, and prompt refinement in a controlled ablation. Our empirical results reveal that while VLMs can count reliably when only one shape type is present, they exhibit substantial failures when multiple shape types are combined (i.e., compositional counting). This highlights a fundamental empirical limitation of current VLMs and motivates important directions for future research.

Your Vision-Language Model Can't Even Count to 20: Exposing the Failures of VLMs in Compositional Counting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理