GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
作者: Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique
分类: cs.CV, cs.AI
发布日期: 2026-03-11
💡 一句话要点
GroundCount:利用目标检测增强视觉语言模型,缓解计数幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 目标检测 计数幻觉 空间 grounding 提示学习 多模态融合 知识注入
📋 核心要点
- 现有视觉语言模型在计数任务中存在严重的“幻觉”问题,导致计数准确率低。
- GroundCount框架利用目标检测模型提供精确的空间定位信息,显式地增强视觉语言模型,从而减少计数错误。
- 实验表明,GroundCount在多个视觉语言模型上实现了计数准确率的显著提升,并降低了推理时间。
📝 摘要(中文)
视觉语言模型(VLMs)在计数任务中表现出持续的幻觉,其准确率远低于其他视觉推理任务。即使是最先进的VLMs也存在此问题。相比之下,基于CNN的目标检测模型(ODMs),如YOLO,擅长空间定位和实例计数,且计算开销极小。我们提出了GroundCount框架,通过ODMs提供的显式空间信息来增强VLMs,从而缓解计数幻觉。在最佳情况下,我们的prompt增强策略在最佳模型(Ovis2.5-2B)上实现了81.3%的计数准确率,提高了6.6个百分点,并通过消除幻觉驱动的推理循环,将更强模型的推理时间缩短了22%。我们进行了全面的消融研究,表明位置编码是一个关键组成部分,对更强的模型有益,但对较弱的模型有害。相比之下,置信度分数会为大多数架构引入噪声,删除它们可以提高五个评估模型中的四个的性能。我们进一步评估了特征级融合架构,发现通过结构化提示进行的显式符号 grounding 优于隐式特征融合,尽管后者具有复杂的交叉注意力机制。我们的方法在五个评估的VLM架构中的四个上产生了一致的改进(6.2--7.5pp),但一个架构由于其迭代反射机制与结构化提示之间的不兼容性而表现下降。这些结果表明,计数失败源于基本的空间-语义集成限制,而不是特定于架构的缺陷,同时强调了增强策略中架构兼容性的重要性。
🔬 方法详解
问题定义:视觉语言模型在执行计数任务时,经常出现“幻觉”,即错误地识别或计数图像中的物体。现有的视觉语言模型在空间语义集成方面存在局限性,导致无法准确地进行计数。
核心思路:利用目标检测模型(如YOLO)在空间定位和实例计数方面的优势,为视觉语言模型提供显式的空间 grounding 信息。通过将目标检测的结果以结构化的方式融入到视觉语言模型的输入中,从而引导模型进行更准确的计数。
技术框架:GroundCount框架的核心在于将目标检测模型的输出(例如,检测到的物体的位置、类别和置信度)转换为结构化的提示(prompt),然后将这些提示与原始图像一起输入到视觉语言模型中。视觉语言模型利用这些提示来辅助其进行计数推理。框架主要包含目标检测模块和提示生成模块。
关键创新:该方法的核心创新在于利用目标检测模型提供的显式空间信息来增强视觉语言模型,从而缓解计数幻觉。与以往依赖于视觉语言模型自身进行空间推理的方法不同,GroundCount通过外部知识注入的方式,提高了计数的准确性。此外,通过结构化提示而非特征融合的方式,实现了更好的性能。
关键设计:关键设计包括:1) 使用YOLO等成熟的目标检测模型;2) 设计有效的结构化提示,将目标检测结果以清晰的方式传递给视觉语言模型,例如,使用位置编码来表示物体的位置信息;3) 通过消融实验,分析不同提示信息(如位置编码、置信度分数)对性能的影响;4) 评估不同视觉语言模型架构与GroundCount框架的兼容性。
🖼️ 关键图片
📊 实验亮点
GroundCount框架在Ovis2.5-2B模型上实现了81.3%的计数准确率,相比原始模型提高了6.6个百分点。同时,通过消除幻觉驱动的推理循环,推理时间缩短了22%。在四个评估的VLM架构上,GroundCount都取得了6.2-7.5个百分点的性能提升。消融实验表明,位置编码是关键组件,而置信度分数通常会引入噪声。
🎯 应用场景
该研究成果可应用于智能监控、自动驾驶、机器人导航等领域,提高视觉系统中物体计数的准确性和可靠性。例如,在智能零售中,可以准确统计货架上的商品数量;在自动驾驶中,可以准确识别和计数交通参与者,从而提高安全性。
📄 摘要(原文)
Vision Language Models (VLMs) exhibit persistent hallucinations in counting tasks, with accuracy substantially lower than other visual reasoning tasks (excluding sentiment). This phenomenon persists even in state-of-the-art reasoning-capable VLMs. Conversely, CNN-based object detection models (ODMs) such as YOLO excel at spatial localization and instance counting with minimal computational overhead. We propose GroundCount, a framework that augments VLMs with explicit spatial grounding from ODMs to mitigate counting hallucinations. In the best case, our prompt-based augmentation strategy achieves 81.3% counting accuracy on the best-performing model (Ovis2.5-2B) - a 6.6pp improvement - while reducing inference time by 22% through elimination of hallucination-driven reasoning loops for stronger models. We conduct comprehensive ablation studies demonstrating that positional encoding is a critical component, being beneficial for stronger models but detrimental for weaker ones. Confidence scores, by contrast, introduce noise for most architectures and their removal improves performance in four of five evaluated models. We further evaluate feature-level fusion architectures, finding that explicit symbolic grounding via structured prompts outperforms implicit feature fusion despite sophisticated cross-attention mechanisms. Our approach yields consistent improvements across four of five evaluated VLM architectures (6.2--7.5pp), with one architecture exhibiting degraded performance due to incompatibility between its iterative reflection mechanisms and structured prompts. These results suggest that counting failures stem from fundamental spatial-semantic integration limitations rather than architecture-specific deficiencies, while highlighting the importance of architectural compatibility in augmentation strategies.