The MixCount Dataset: Bridging the Data Gap for Open-Vocabulary Object Counting

📄 arXiv: 2605.18063v1 📥 PDF

作者: Corentin Dumery, Niki Amini-Naieni, Shervin Naini, Pascal Fua

分类: cs.CV, cs.LG

发布日期: 2026-05-18

备注: Co-first authors. Dataset and project page https://corentindumery.github.io/projects/mixcount.html


💡 一句话要点

提出MixCount数据集以解决混合物体计数问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 物体计数 数据集 合成数据 计算机视觉 深度学习

📋 核心要点

  1. 现有物体计数模型在混合物体场景下表现不佳,主要受限于训练和评估数据的质量和多样性。
  2. 提出MixCount数据集,通过自动生成图像和注释,解决高成本标注问题,提供多样化和真实感的数据。
  3. 在MixCount上评估现有模型,发现其在混合物体场景下性能严重下降,而基于MixCount训练的模型在真实基准上显著提升。

📝 摘要(中文)

物体计数是计算机视觉中的基础任务,尽管已有十多年研究,但在混合物体场景下,现有模型仍表现不佳。本文指出,现有训练和评估数据的局限性是导致这一问题的主要原因。为此,作者提出了MixCount数据集和基准,旨在针对当前计数模型的失败模式。通过自动生成图像、细粒度文本描述和像素级计数注释,MixCount有效解决了标注模糊的问题。实验结果表明,基于MixCount训练的模型在真实基准上显著提升,MAE分别降低了20.14%和18.3%。

🔬 方法详解

问题定义:本文旨在解决混合物体计数任务中的数据缺口问题。现有数据集标注成本高且存在噪声,合成数据缺乏多样性和真实感,导致模型在实际应用中表现不佳。

核心思路:作者提出MixCount数据集,通过自动化生成图像和精确的计数注释,克服了传统数据集的标注模糊和成本高的问题。该方法旨在提供丰富且真实的训练数据,以提高模型在混合物体场景下的性能。

技术框架:MixCount的生成流程包括图像合成、文本描述生成和像素级计数注释。首先,利用合成技术生成多样化的图像,然后为每个图像生成细粒度的文本描述,最后进行精确的计数注释。

关键创新:MixCount的主要创新在于其自动生成的数据管道,能够有效生成大量高质量的标注数据,解决了传统数据集的标注瓶颈。这一方法与现有依赖人工标注的数据集本质上不同。

关键设计:在数据生成过程中,采用了特定的参数设置以确保图像的多样性和真实感,同时设计了精确的损失函数以优化生成的注释质量。

📊 实验亮点

在MixCount数据集上评估现有计数模型,发现其在混合物体场景下性能严重下降。基于MixCount训练的模型在真实基准上表现出显著提升,MAE在FSC-147上降低了20.14%,在PairTally上降低了18.3%。这些结果表明MixCount在物体计数领域的重要性。

🎯 应用场景

MixCount数据集在工业检测、产品分类等实际应用中具有重要价值。通过提供高质量的训练数据,能够显著提升物体计数模型的性能,推动相关领域的技术进步。未来,该数据集还可用于其他视觉任务的研究,促进开放词汇的物体识别和计数。

📄 摘要(原文)

Object counting is a foundational vision task with over a decade of dedicated research, yet state-of-the-art models still fail systematically in the mixed-object setting that dominates real-world applications such as industrial inspection and product sorting. We show that this gap is strongly driven by limitations in existing training and evaluation data: real counting datasets are prohibitively expensive to annotate and suffer from labeling noise, while existing synthetic alternatives lack diversity and realism. We address this with MixCount, a dataset and benchmark for mixed-object counting designed to target the failure modes of current counting models. To overcome the high cost of constructing and labeling such data, we develop an automatic generation pipeline that synthesizes images, fine-grained textual descriptions, and pixel-perfect counting annotations at scale, eliminating the labeling ambiguity that plagues prior datasets. Evaluating state-of-the-art counting models on MixCount exposes severe degradation in the mixed-object setting. More importantly, training these models on our synthesized data yields substantial gains on real-world benchmarks, reducing MAE by 20.14% on FSC-147 and by 18.3% on PairTally. These results establish MixCount as both a benchmark and a training dataset for fine-grained counting, and demonstrate that our pipeline, which produces effectively unlimited labeled data, helps address a long-standing bottleneck in counting models.