Boosting Quantitive and Spatial Awareness for Zero-Shot Object Counting
作者: Da Zhang, Bingyu Li, Feiyu Wang, Zhiyuan Zhao, Junyu Gao
分类: cs.CV
发布日期: 2026-03-17
备注: Accepted to CVPR 2026
💡 一句话要点
提出QICA框架,提升零样本物体计数中的数量感知和空间感知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本物体计数 数量感知 空间感知 协同提示策略 代价聚合解码器
📋 核心要点
- 现有零样本物体计数方法缺乏细粒度的数量感知,且易受特征空间扭曲影响,导致空间不敏感和泛化能力下降。
- QICA框架通过协同提示策略SPS和代价聚合解码器CAD,增强模型对数量的感知,并提升空间信息的利用,从而提高计数精度。
- 实验表明,QICA在FSC-147数据集上表现出竞争力的性能,并在CARPK和ShanghaiTech-A数据集上验证了其优越的零样本泛化能力。
📝 摘要(中文)
本文提出了一种名为QICA的新框架,旨在提升零样本物体计数(ZSOC)的性能。现有方法通常将计数视为粗略的检索任务,缺乏细粒度的数量感知,并且由于模型适应过程中的特征空间扭曲,常常表现出空间不敏感性和泛化能力下降。为了解决这些问题,QICA协同了数量感知和鲁棒的空间代价聚合。具体来说,我们引入了一种协同提示策略(SPS),通过数值条件提示来调整视觉和语言编码器,弥合了语义识别和定量推理之间的差距。为了减轻特征扭曲,我们提出了一种代价聚合解码器(CAD),它直接在视觉-文本相似度图上操作,通过空间聚合来细化这些图,防止过拟合,同时保持零样本迁移能力。此外,采用多级数量对齐损失($\mathcal{L}_{MQA}$)来强制整个pipeline中的数值一致性。在FSC-147上的大量实验表明了具有竞争力的性能,而在CARPK和ShanghaiTech-A上的零样本评估验证了对未见领域的卓越泛化能力。
🔬 方法详解
问题定义:零样本物体计数(ZSOC)旨在枚举由文本描述指定的任意类别的物体,而无需视觉示例。现有方法通常将计数视为粗略的检索任务,忽略了细粒度的数量信息,并且在模型适应过程中容易发生特征空间扭曲,导致空间感知能力不足和泛化性能下降。
核心思路:QICA的核心思路是同时提升模型对物体数量的感知能力和对空间信息的利用能力。通过协同提示策略(SPS)将数值信息融入视觉和语言编码器,弥合语义识别和定量推理之间的差距。通过代价聚合解码器(CAD)在视觉-文本相似度图上进行空间聚合,防止过拟合,并保持零样本迁移能力。
技术框架:QICA框架主要包含三个模块:协同提示策略(SPS)、代价聚合解码器(CAD)和多级数量对齐损失($\mathcal{L}{MQA}$)。首先,SPS通过数值条件提示调整视觉和语言编码器,生成包含数量信息的特征表示。然后,CAD在视觉-文本相似度图上进行空间聚合,得到精细化的相似度图。最后,$\mathcal{L}{MQA}$用于强制整个pipeline中的数值一致性。
关键创新:QICA的关键创新在于协同提示策略(SPS)和代价聚合解码器(CAD)的结合。SPS通过数值条件提示,将数量信息显式地融入到视觉和语言特征中,增强了模型对数量的感知能力。CAD通过在视觉-文本相似度图上进行空间聚合,有效地利用了空间信息,并防止了过拟合,提高了模型的泛化能力。与现有方法相比,QICA更加注重数量感知和空间信息的利用,从而提高了零样本物体计数的精度。
关键设计:协同提示策略(SPS)使用数值作为条件,生成prompt来引导视觉和语言编码器的学习。代价聚合解码器(CAD)使用可学习的卷积核在视觉-文本相似度图上进行空间聚合。多级数量对齐损失($\mathcal{L}_{MQA}$)在不同层级的特征上强制数值一致性,确保整个pipeline的输出结果在数量上保持一致。
🖼️ 关键图片
📊 实验亮点
QICA框架在FSC-147数据集上取得了具有竞争力的性能,证明了其有效性。更重要的是,在CARPK和ShanghaiTech-A数据集上的零样本评估表明,QICA具有优越的泛化能力,能够很好地适应未见过的领域。这表明QICA在实际应用中具有更强的鲁棒性和可靠性。
🎯 应用场景
该研究成果可应用于智能监控、遥感图像分析、自动驾驶等领域,例如在监控视频中自动统计人群数量,在遥感图像中计数特定类型的建筑物,或在自动驾驶场景中估计车辆数量。该研究有助于提升机器对环境的理解能力,为智能化应用提供更准确的数据支持,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Zero-shot object counting (ZSOC) aims to enumerate objects of arbitrary categories specified by text descriptions without requiring visual exemplars. However, existing methods often treat counting as a coarse retrieval task, suffering from a lack of fine-grained quantity awareness. Furthermore, they frequently exhibit spatial insensitivity and degraded generalization due to feature space distortion during model adaptation.To address these challenges, we present \textbf{QICA}, a novel framework that synergizes \underline{q}uantity percept\underline{i}on with robust spatial \underline{c}ast \underline{a}ggregation. Specifically, we introduce a Synergistic Prompting Strategy (\textbf{SPS}) that adapts vision and language encoders through numerically conditioned prompts, bridging the gap between semantic recognition and quantitative reasoning. To mitigate feature distortion, we propose a Cost Aggregation Decoder (\textbf{CAD}) that operates directly on vision-text similarity maps. By refining these maps through spatial aggregation, CAD prevents overfitting while preserving zero-shot transferability. Additionally, a multi-level quantity alignment loss ($\mathcal{L}_{MQA}$) is employed to enforce numerical consistency across the entire pipeline. Extensive experiments on FSC-147 demonstrate competitive performance, while zero-shot evaluation on CARPK and ShanghaiTech-A validates superior generalization to unseen domains.