A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches

📄 arXiv: 2501.19184v3 📥 PDF

作者: Luca Ciampi, Ali Azmoudeh, Elif Ecem Akbaba, Erdi Sarıtaş, Ziya Ata Yazıcı, Hazım Kemal Ekenel, Giuseppe Amato, Fabrizio Falchi

分类: cs.CV

发布日期: 2025-01-31 (更新: 2025-04-28)


💡 一句话要点

对类别无关计数方法进行综述,涵盖参考式、无参考式和开放世界文本引导方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 类别无关计数 对象计数 视觉对象计数 少样本学习 开放世界学习

📋 核心要点

  1. 现有对象计数方法依赖大量标注数据,且难以泛化到未见过的类别,限制了其在开放环境中的应用。
  2. 本文提出类别无关计数(CAC)的分类体系,涵盖参考式、无参考式和文本引导式三种范例,旨在解决跨类别对象计数问题。
  3. 论文对29种CAC方法进行综述,并在FSC-147和CARPK数据集上评估性能,分析了现有方法的优缺点和未来发展方向。

📝 摘要(中文)

视觉对象计数领域的研究趋势已转向类别无关计数(CAC),旨在解决跨任意类别进行对象计数的问题,这对于构建灵活且具有泛化能力的计数系统至关重要。与人类能够毫不费力地识别和计数来自不同类别的对象不同,现有的大多数计数方法仅限于枚举已知类别的实例,需要大量的标注数据集进行训练,并且在开放词汇环境中表现不佳。相比之下,CAC旨在计数训练期间从未见过的类别的对象,并在少样本设置中运行。本文对CAC方法进行了首次全面综述。我们提出了一种分类法,根据目标对象类别的指定方式将CAC方法分为三种范例:参考式、无参考式和开放世界文本引导式。参考式方法通过依赖示例引导机制实现了最先进的性能。无参考式方法通过利用固有的图像模式消除了对示例的依赖。最后,开放世界文本引导式方法使用视觉-语言模型,通过文本提示实现对象类别的描述,提供了一种灵活且有前景的解决方案。基于这种分类法,我们概述了29种CAC方法的架构,并报告了它们在黄金标准基准上的结果。我们比较了它们的性能,并讨论了它们的优势和局限性。具体来说,我们展示了在FSC-147数据集上的结果,使用黄金标准指标设置了排行榜,并在CARPK数据集上评估了泛化能力。最后,我们对持续存在的挑战(如标注依赖和泛化)以及未来的方向进行了批判性讨论。我们相信这篇综述将成为宝贵的资源,展示CAC的进展并指导未来的研究。

🔬 方法详解

问题定义:论文旨在解决传统对象计数方法在类别泛化能力上的不足。现有方法通常需要大量标注数据,且只能计数训练集中出现的类别,无法应对开放世界中未见过的对象类别。这限制了对象计数技术在实际应用中的灵活性和通用性。

核心思路:论文的核心思路是将类别无关计数(CAC)方法进行系统性地分类和分析,从而为研究人员提供一个清晰的框架,并促进该领域的发展。通过对不同方法的优缺点进行比较,揭示了现有方法的局限性,并指出了未来研究的方向。

技术框架:论文将CAC方法分为三类:参考式、无参考式和开放世界文本引导式。参考式方法依赖于示例图像来指导计数;无参考式方法则利用图像自身的特征进行计数;开放世界文本引导式方法则利用文本描述来指定要计数的对象类别。论文对每种类型的代表性方法进行了详细的介绍和分析。

关键创新:论文的主要创新在于提出了一个全面的CAC方法分类体系,并对各种方法进行了深入的分析和比较。这是首次对CAC领域进行如此全面的综述,为研究人员提供了一个宝贵的资源。此外,论文还指出了现有方法的局限性,并提出了未来研究的方向。

关键设计:论文的关键设计在于其分类体系的构建。该体系基于目标对象类别的指定方式,将CAC方法分为三类,从而能够清晰地展示不同方法的特点和优缺点。此外,论文还对各种方法的性能进行了详细的评估,并提供了在FSC-147数据集上的排行榜。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在FSC-147数据集上对各种CAC方法进行了评估,并使用黄金标准指标设置了排行榜。此外,论文还在CARPK数据集上评估了方法的泛化能力。实验结果表明,参考式方法在性能上通常优于其他方法,但同时也存在一些局限性,例如对示例图像的依赖。

🎯 应用场景

类别无关计数技术具有广泛的应用前景,例如智能监控、自动驾驶、零售分析、医学图像分析等领域。该技术可以用于统计人群密度、车辆数量、商品数量、细胞数量等,为决策提供数据支持。未来,随着技术的不断发展,类别无关计数将在更多领域发挥重要作用。

📄 摘要(原文)

Visual object counting has recently shifted towards class-agnostic counting (CAC), which addresses the challenge of counting objects across arbitrary categories -- a crucial capability for flexible and generalizable counting systems. Unlike humans, who effortlessly identify and count objects from diverse categories without prior knowledge, most existing counting methods are restricted to enumerating instances of known classes, requiring extensive labeled datasets for training and struggling in open-vocabulary settings. In contrast, CAC aims to count objects belonging to classes never seen during training, operating in a few-shot setting. In this paper, we present the first comprehensive review of CAC methodologies. We propose a taxonomy to categorize CAC approaches into three paradigms based on how target object classes can be specified: reference-based, reference-less, and open-world text-guided. Reference-based approaches achieve state-of-the-art performance by relying on exemplar-guided mechanisms. Reference-less methods eliminate exemplar dependency by leveraging inherent image patterns. Finally, open-world text-guided methods use vision-language models, enabling object class descriptions via textual prompts, offering a flexible and promising solution. Based on this taxonomy, we provide an overview of the architectures of 29 CAC approaches and report their results on gold-standard benchmarks. We compare their performance and discuss their strengths and limitations. Specifically, we present results on the FSC-147 dataset, setting a leaderboard using gold-standard metrics, and on the CARPK dataset to assess generalization capabilities. Finally, we offer a critical discussion of persistent challenges, such as annotation dependency and generalization, alongside future directions. We believe this survey will be a valuable resource, showcasing CAC advancements and guiding future research.