CountGD: Multi-Modal Open-World Counting
作者: Niki Amini-Naieni, Tengda Han, Andrew Zisserman
分类: cs.CV
发布日期: 2024-07-05 (更新: 2025-03-10)
备注: NeurIPS 2024
💡 一句话要点
提出CountGD,一种多模态开放世界计数模型,提升了通用性和准确性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放世界计数 多模态学习 视觉范例 GroundingDINO 目标检测 计数模型
📋 核心要点
- 现有开放词汇对象计数方法在通用性和准确性方面存在不足,难以适应复杂场景和多样化目标。
- CountGD利用GroundingDINO,并扩展其功能,支持通过文本描述和视觉范例指定计数目标,实现多模态提示。
- 实验表明,CountGD在多个计数基准上显著优于现有技术,尤其是在结合文本和视觉范例时。
📝 摘要(中文)
本文旨在提高图像中开放词汇对象计数的通用性和准确性。为了提高通用性,我们重新利用了一个开放词汇检测基础模型(GroundingDINO)来执行计数任务,并通过引入模块扩展了其功能,从而能够通过视觉范例指定要计数的目标对象。反过来,这些新功能——能够通过多模态(文本和范例)指定目标对象——提高了计数精度。我们做出了三项贡献:首先,我们引入了第一个开放世界计数模型CountGD,其中提示可以通过文本描述、视觉范例或两者来指定;其次,我们表明,该模型的性能显著提高了多个计数基准的现有技术水平——当仅使用文本时,CountGD与所有先前的纯文本工作相当或优于它们,而当同时使用文本和视觉范例时,我们优于所有先前的模型;第三,我们对文本和视觉范例提示之间的不同交互进行了初步研究,包括它们相互加强的情况以及一个限制另一个的情况。代码和一个用于测试该模型的应用程序可在https://www.robots.ox.ac.uk/~vgg/research/countgd/上找到。
🔬 方法详解
问题定义:现有开放词汇对象计数方法通常依赖于文本描述,难以处理目标对象外观复杂或文本描述不准确的情况。此外,缺乏利用视觉信息辅助计数的能力,限制了其在复杂场景下的应用。
核心思路:CountGD的核心思路是利用多模态信息(文本和视觉范例)来更准确地指定计数目标。通过结合GroundingDINO的开放词汇检测能力和视觉范例的精确描述能力,模型可以更好地理解用户的意图,从而提高计数准确性。
技术框架:CountGD的整体框架包括以下几个主要模块:1) GroundingDINO:作为基础检测模型,负责检测图像中的候选对象;2) 文本编码器:将文本描述转换为向量表示;3) 视觉范例编码器:将视觉范例图像转换为向量表示;4) 多模态融合模块:将文本和视觉特征融合,生成最终的目标对象表示;5) 计数模块:基于目标对象表示,对图像中的目标对象进行计数。
关键创新:CountGD的关键创新在于引入了视觉范例作为计数提示,并设计了多模态融合模块,有效地结合了文本和视觉信息。这使得模型能够处理更复杂的目标对象和场景,提高了计数的通用性和准确性。
关键设计:在多模态融合模块中,论文研究了不同的交互方式,包括文本和视觉范例相互加强以及一个限制另一个的情况。具体的网络结构和损失函数细节在论文中进行了详细描述,但此处未给出具体参数。
🖼️ 关键图片
📊 实验亮点
CountGD在多个计数基准上取得了显著的性能提升。当仅使用文本时,CountGD与现有最佳文本计数方法相当或更优。当同时使用文本和视觉范例时,CountGD超越了所有先前的模型,表明多模态提示的有效性。具体的性能数据和提升幅度可在论文实验部分找到。
🎯 应用场景
CountGD具有广泛的应用前景,例如智能零售中的商品计数、安防监控中的人群计数、自动驾驶中的车辆计数等。该模型能够处理复杂场景和多样化的目标对象,为各行业提供更准确、更可靠的计数服务,助力智能化升级。
📄 摘要(原文)
The goal of this paper is to improve the generality and accuracy of open-vocabulary object counting in images. To improve the generality, we repurpose an open-vocabulary detection foundation model (GroundingDINO) for the counting task, and also extend its capabilities by introducing modules to enable specifying the target object to count by visual exemplars. In turn, these new capabilities - being able to specify the target object by multi-modalites (text and exemplars) - lead to an improvement in counting accuracy. We make three contributions: First, we introduce the first open-world counting model, CountGD, where the prompt can be specified by a text description or visual exemplars or both; Second, we show that the performance of the model significantly improves the state of the art on multiple counting benchmarks - when using text only, CountGD is comparable to or outperforms all previous text-only works, and when using both text and visual exemplars, we outperform all previous models; Third, we carry out a preliminary study into different interactions between the text and visual exemplar prompts, including the cases where they reinforce each other and where one restricts the other. The code and an app to test the model are available at https://www.robots.ox.ac.uk/~vgg/research/countgd/.