CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

作者: Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen

分类: cs.CV, cs.AI

发布日期: 2025-10-27

备注: 6 pages, 2 tables, 6 figures. Submitted to IEEE 5th International Conference on Electrical, Computer and Telecommunication Engineering (ICECTE 2025)

💡 一句话要点

CountFormer：Transformer框架学习视觉重复与结构，实现类别无关的目标计数

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 目标计数 Transformer DINOv2 视觉重复 结构一致性 类别无关 密度图 自监督学习

📋 核心要点

现有计数模型在处理具有复杂形状、内部对称或重叠的对象时，计数准确率较低，无法有效模仿人类的计数能力。
CountFormer利用Transformer架构，通过学习视觉重复和结构一致性来进行类别无关的目标计数，更接近人类的计数方式。
实验表明，CountFormer在FSC-147数据集上取得了与SOTA方法相当的性能，并在结构复杂或密集场景中表现出更优的准确性。

📝 摘要（中文）

本文提出CountFormer，一个基于Transformer的框架，用于学习视觉重复和结构一致性，从而实现类别无关的目标计数。与依赖类别信息不同，人类通过感知视觉重复和结构关系来计数。现有模型难以复制这种能力，在处理复杂形状、内部对称或重叠对象时容易出错。CountFormer基于CounTR架构，用自监督预训练模型DINOv2替换视觉编码器，以产生更丰富和空间一致的特征表示。此外，模型还融合了位置嵌入，以保留几何关系，然后通过轻量级卷积解码器将这些特征解码为密度图。在FSC-147数据集上的评估表明，该模型达到了与当前最先进方法相当的性能，并在结构复杂或密集场景中表现出更高的准确性。研究结果表明，集成DINOv2等预训练模型使计数系统能够接近人类般的结构感知，从而朝着真正通用和无样本的计数范式迈进。

🔬 方法详解

问题定义：论文旨在解决类别无关的目标计数问题，即在不依赖对象类别信息的情况下，准确估计图像中特定目标的数量。现有方法在处理具有复杂形状、内部对称性或密集堆叠的对象时，往往表现不佳，因为它们难以捕捉到目标之间的结构关系和重复模式。

核心思路：论文的核心思路是利用Transformer架构学习图像中目标的视觉重复模式和结构一致性，从而实现更准确的计数。通过引入自监督预训练模型DINOv2作为视觉编码器，可以提取更丰富和空间一致的特征表示，从而更好地捕捉目标的结构信息。

技术框架：CountFormer的整体架构基于CounTR，主要包含以下几个模块：1) DINOv2视觉编码器：用于提取图像的视觉特征；2) 位置嵌入融合：用于保留特征的空间几何关系；3) 轻量级卷积解码器：将特征解码为密度图，密度图上的积分即为目标数量的估计值。

关键创新：CountFormer的关键创新在于使用DINOv2作为视觉编码器，并结合位置嵌入融合，从而能够更好地学习目标的结构信息和重复模式。与传统的卷积神经网络相比，Transformer架构具有更强的全局建模能力，能够更好地捕捉目标之间的长程依赖关系。

关键设计：DINOv2的选择是因为其自监督学习的特性，使其能够学习到更通用的视觉特征表示。位置嵌入融合采用了一种简单而有效的方式，将位置信息融入到特征中，从而保留了目标的空间几何关系。轻量级卷积解码器的设计旨在减少计算量，同时保证解码的准确性。损失函数采用标准的密度图回归损失。

📊 实验亮点

CountFormer在FSC-147数据集上取得了与当前最先进方法相当的性能，并在结构复杂或密集场景中表现出更高的准确性。具体来说，CountFormer在处理具有复杂形状、内部对称性或密集堆叠的对象时，计数准确率显著提升，表明其能够更好地学习目标的结构信息和重复模式。该模型证明了预训练模型在目标计数任务中的有效性，并为未来的研究提供了新的思路。

🎯 应用场景

CountFormer在智能监控、自动驾驶、零售分析、医学图像分析等领域具有广泛的应用前景。例如，在智能监控中，可以用于统计人群密度或车辆数量；在自动驾驶中，可以用于检测和计数道路上的行人或车辆；在零售分析中，可以用于统计货架上的商品数量；在医学图像分析中，可以用于计数细胞数量。该研究有助于推动通用计数技术的发展，实现更智能、更高效的视觉分析。

📄 摘要（原文）

Humans can effortlessly count diverse objects by perceiving visual repetition and structural relationships rather than relying on class identity. However, most existing counting models fail to replicate this ability; they often miscount when objects exhibit complex shapes, internal symmetry, or overlapping components. In this work, we introduce CountFormer, a transformer-based framework that learns to recognize repetition and structural coherence for class-agnostic object counting. Built upon the CounTR architecture, our model replaces its visual encoder with the self-supervised foundation model DINOv2, which produces richer and spatially consistent feature representations. We further incorporate positional embedding fusion to preserve geometric relationships before decoding these features into density maps through a lightweight convolutional decoder. Evaluated on the FSC-147 dataset, our model achieves performance comparable to current state-of-the-art methods while demonstrating superior accuracy on structurally intricate or densely packed scenes. Our findings indicate that integrating foundation models such as DINOv2 enables counting systems to approach human-like structural perception, advancing toward a truly general and exemplar-free counting paradigm.

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册