Count Anything at Any Granularity
作者: Chang Liu, Haoning Wu, Weidi Xie
分类: cs.CV
发布日期: 2026-05-11
备注: Project page: https://verg-avesta.github.io/KubriCount/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出多粒度计数框架HieraCount与大规模数据集KubriCount,实现开放世界下的精准目标计数
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 目标计数 多粒度学习 多模态融合 开放世界视觉 3D数据合成 视觉语言模型
📋 核心要点
- 现有计数方法将“计数对象”简化为单一类别匹配,忽略了用户在身份、属性及抽象概念等不同粒度下的复杂意图,导致模型在细粒度区分任务上表现脆弱。
- 提出多粒度计数范式,通过视觉示例与细粒度文本提示明确目标,并构建了包含3D合成与VLM过滤的自动化数据生成流水线,填补了高质量多粒度标注数据的空白。
- 研发HieraCount模型,通过融合文本与视觉特征,在多粒度计数任务上实现了显著的性能提升,并在复杂现实场景中表现出卓越的鲁棒性与泛化能力。
📝 摘要(中文)
开放世界目标计数仍面临挑战,现有视觉语言模型(VLM)难以准确理解用户意图。本文指出,核心瓶颈在于计数粒度的模糊性,即用户可能在身份、属性、实例类型、类别或抽象概念等五个层级上进行定义,而现有方法仅将其视为单一的类别匹配问题。为此,本文重新定义了“多粒度计数”任务,引入视觉示例与细粒度文本提示来明确语义边界。针对数据匮乏问题,提出了一种全自动数据扩展流水线,结合可控3D合成、图像编辑与VLM过滤,构建了目前规模最大、标注最全的KubriCount数据集。实验表明,现有模型在细粒度区分上表现不佳,而本文提出的HieraCount模型通过联合利用文本与视觉示例,显著提升了多粒度计数精度,并展现出强大的现实场景泛化能力。
🔬 方法详解
问题定义:论文旨在解决开放世界中目标计数任务的“粒度模糊”问题。现有方法通常将计数简化为单一类别的检测或回归,无法处理用户在身份、属性、实例类型、类别或抽象概念等五个不同语义层级上的细粒度需求。
核心思路:将计数任务重构为多粒度匹配问题。通过引入视觉示例(Visual Exemplars)作为外观约束,结合细粒度文本提示(Fine-grained Text Prompts)和负面提示(Negative Prompts),显式地定义计数目标,从而消除语义歧义。
技术框架:整体流程包含数据构建与模型训练两部分。数据端采用全自动流水线,利用3D合成技术生成多类别场景,通过图像编辑与VLM过滤确保数据的一致性与标注质量。模型端采用HieraCount架构,将视觉示例与文本提示作为双重输入,通过多模态特征融合实现对目标的精准定位与计数。
关键创新:首次提出了多粒度计数任务定义,并构建了首个支持该任务的大规模数据集KubriCount。创新性地将视觉示例与文本提示结合,解决了仅依赖文本提示在细粒度区分上的语义对齐难题。
关键设计:模型设计上,HieraCount采用联合编码机制,将视觉示例的局部特征与文本提示的语义特征进行对齐。在训练过程中,通过引入负面提示来抑制干扰项,增强模型对细粒度特征的判别能力,从而在不同粒度层级上实现鲁棒的计数输出。
🖼️ 关键图片
📊 实验亮点
实验表明,现有主流多模态大模型及专用计数模型在细粒度区分上存在严重的提示遵循失败。相比之下,HieraCount在KubriCount数据集上展现出显著的性能优势,在处理包含干扰项的复杂场景时,计数准确率大幅提升,且在未见过的真实世界图像中表现出极强的泛化能力,证明了多粒度提示机制的有效性。
🎯 应用场景
该研究在工业自动化检测、精细化库存管理、城市交通流量分析及生物医学图像分析等领域具有广泛应用价值。通过支持用户自定义计数粒度,系统能更灵活地适应从特定产品型号识别到抽象概念统计的复杂需求,显著提升了计算机视觉系统在开放环境下的实用性与交互体验。
📄 摘要(原文)
Open-world object counting remains brittle: despite rapid advances in vision-language models (VLMs), reliably counting the objects a user intends is far from solved. We argue that a central reason is that counting granularity is left implicit; users may refer to a specific identity, an attribute, an instance type, a category, or an abstract concept, yet most methods treat "what to count" as a single, category-level matching problem. In this work, we redefine open-world counting as multi-grained counting, where visual exemplars specify target appearance and fine-grained text, with optional negative prompts, specifies the intended semantic granularity across five explicit levels. Making granularity explicit, however, exposes a critical data bottleneck: existing counting datasets lack the multi-category scenes, controlled distractors, and instance-level annotations needed to verify fine-grained prompt semantics. To address this, we propose the first fully automatic data-scaling pipeline that integrates controllable 3D synthesis with consistent image editing and VLM-based filtering, and use it to construct KubriCount, the largest and most comprehensively annotated counting dataset to date, supporting both training and multi-grained evaluation. Systematic benchmarking reveals that both multimodal large language models and specialist counting models exhibit severe prompt-following failures under fine-grained distinctions. Motivated by these findings, we train HieraCount, a multi-grained counting model that jointly leverages text and visual exemplars as complementary target specifications. HieraCount substantially improves multi-grained counting accuracy and generalizes robustly to challenging real-world scenarios. The project page is available here: https://verg-avesta.github.io/KubriCount/.