Unveiling the Visual Counting Bottleneck in Vision-Language Models
作者: Xingzhou Pang, Yifan Hou, Junling Wang, Mrinmaya Sachan
分类: cs.MM, cs.CV, cs.LG
发布日期: 2026-05-28
备注: ICML 2026
💡 一句话要点
揭示视觉语言模型中视觉计数瓶颈:符号映射失败导致外推泛化能力不足
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 视觉计数 系统泛化 符号映射 幅度感知
📋 核心要点
- 现有视觉语言模型在视觉计数等系统泛化任务中表现不佳,无法有效处理外推场景。
- 论文将视觉计数分解为视觉个体化、幅度感知和符号映射三个阶段,并逐一分析。
- 实验表明,瓶颈在于符号映射阶段,模型无法将视觉幅度正确映射到符号标记。
📝 摘要(中文)
大型视觉语言模型(VLMs)在插值方面表现出色,但在系统泛化方面却遭遇灾难性失败,尤其是在视觉计数方面。本文通过将视觉计数分解为三个认知阶段:视觉个体化、幅度感知和符号映射,来研究这种外推瓶颈。使用合成围棋棋盘和线性探针,我们证明视觉骨干网络在整个外推过程中保持了数量的鲁棒、线性可分的表示,排除了感知失败的可能性。此外,模型保留了潜在的幅度感知能力,成功地对未能枚举的数量执行比较推理。我们发现崩溃发生在符号映射阶段,模型未能将有效的视觉幅度投影到符号标记上。我们的研究结果支持一个破碎的幅度假设:VLMs未能获得一个通用的数字空间,而是学习了不相交的、特定于模态的统计流形,这阻止了对未见数量的跨模态接地。在最先进的基础模型上验证的结果表明,弥合这一差距需要强制统一表示的归纳先验,而仅靠数据缩放是不够的。
🔬 方法详解
问题定义:视觉语言模型(VLMs)在视觉计数任务中,尤其是在处理超出训练范围的数量时,表现出较差的泛化能力。现有的VLMs虽然在插值任务上表现良好,但在外推任务上会发生灾难性的失败。这种失败表明模型无法正确理解和处理数量的概念,阻碍了其在更广泛场景中的应用。
核心思路:论文的核心思路是将视觉计数任务分解为三个关键的认知阶段:视觉个体化(识别和分割对象)、幅度感知(感知数量的大小)和符号映射(将数量映射到相应的数字符号)。通过分别分析这三个阶段,可以更精确地定位VLM在视觉计数任务中失败的原因。
技术框架:论文采用了一种模块化的分析方法,首先使用合成的围棋棋盘图像作为输入,然后利用线性探针来评估VLM在每个阶段的表现。具体来说,使用预训练的视觉骨干网络提取图像特征,然后训练线性分类器来预测数量。通过分析线性分类器的性能,可以评估VLM在每个阶段是否成功地学习了相应的表示。此外,论文还设计了比较推理任务,以进一步验证模型是否具有幅度感知能力。
关键创新:论文最重要的创新点在于提出了“破碎的幅度假设”,即VLMs未能学习到一个通用的数字空间,而是学习了特定于模态的、不相交的统计流形。这意味着模型在视觉模态和语言模态中对数量的表示是割裂的,导致无法进行有效的跨模态接地。
关键设计:论文使用了合成的围棋棋盘图像,可以精确控制图像中对象的数量和分布。线性探针被用于评估VLM在每个阶段的表示能力,避免了复杂的非线性映射带来的干扰。比较推理任务的设计旨在验证模型是否具有幅度感知能力,即使它无法准确地枚举数量。
📊 实验亮点
实验结果表明,视觉骨干网络能够保持数量的线性可分表示,表明感知不是瓶颈。模型也具备潜在的幅度感知能力,但无法将视觉幅度正确映射到符号标记。在最先进的基础模型上的验证表明,仅靠数据缩放不足以解决该问题,需要引入归纳先验来强制统一表示。
🎯 应用场景
该研究成果有助于提升视觉语言模型在需要精确计数的任务中的性能,例如目标检测、图像标注、机器人导航等。通过解决视觉计数瓶颈,可以提高模型在实际应用中的可靠性和泛化能力,例如在自动驾驶中准确识别车辆和行人数量,或在医疗影像分析中计数细胞数量。
📄 摘要(原文)
While Large Vision-Language Models (VLMs) excel at interpolation, they suffer catastrophic failures in systematic generalization, most notably in visual counting. In this work, we investigate this extrapolation bottleneck by deconstructing visual counting into three cognitive stages: visual individuation, magnitude awareness, and symbolic mapping. Using synthetic Go boards and linear probes, we demonstrate that visual backbones maintain robust, linearly separable representations of quantity well into the extrapolation regime, ruling out perceptual failure. Furthermore, models retain latent magnitude awareness, successfully performing comparative reasoning on quantities they fail to enumerate. We pinpoint the collapse to the symbolic mapping stage, where the model fails to project valid visual magnitudes onto symbolic tokens. Our findings support a frac tured magnitude hypothesis: VLMs fail to acquire a universal number space, instead learning disjoint, modality-specific statistical manifolds that prevent cross-modal grounding for unseen quantities. Validated on the state-of-the-art foundation model, our results suggest that bridging this gap requires inductive priors enforcing unified representations, as data scaling alone is insufficient.