Improving Contrastive Learning for Referring Expression Counting
作者: Kostas Triaridis, Panagiotis Kaliosis, E-Ro Nguyen, Jingyi Xu, Hieu Le, Dimitris Samaras
分类: cs.CV
发布日期: 2025-05-28
备注: 9 pages, 4 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出C-REX对比学习框架,提升指代表达式计数任务的判别表示学习能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 指代表达式计数 对比学习 判别表示学习 对象检测 图像空间 类别无关计数
📋 核心要点
- 现有指代表达式计数方法难以区分视觉相似但对应不同表达的对象,限制了计数精度。
- C-REX框架在图像空间进行对比学习,避免图像-文本对齐问题,并利用更大的负样本池提升鲁棒性。
- 实验表明,C-REX在指代表达式计数任务上显著超越现有方法,并在类别无关计数上表现良好。
📝 摘要(中文)
本文提出了一种新的对比学习框架C-REX,用于提升指代表达式计数(REC)任务的性能。现有方法难以区分视觉上相似但对应不同指代表达式的对象。C-REX基于监督对比学习,旨在增强判别表示学习。与以往工作不同,C-REX完全在图像空间中操作,避免了图像-文本对比学习中的对齐问题,从而提供更稳定的对比信号。它还保证了更大的负样本池,从而提高了学习表示的鲁棒性。此外,本文展示了该框架的通用性,可应用于其他类似任务,如类别无关计数。分析表明,检测对象中心点而非边界框是计数任务成功的关键因素。实验表明,C-REX在REC上取得了最先进的结果,MAE优于先前方法22%以上,RMSE优于10%以上,并在类别无关计数方面表现出色。
🔬 方法详解
问题定义:指代表达式计数(REC)任务旨在根据细粒度的属性和上下文差异来计数对象。现有方法,尤其是基于检测的方法,在区分视觉上相似但对应不同指代表达式的对象时表现不佳。这导致计数错误,尤其是在对象密集或外观相似的场景中。现有方法的痛点在于缺乏有效的判别表示学习机制,无法充分利用图像中的上下文信息来区分不同的对象。
核心思路:C-REX的核心思路是利用对比学习来增强图像表示的判别能力。通过在图像空间中构建正负样本对,C-REX鼓励模型学习区分不同指代表达式对应的对象。与图像-文本对比学习不同,C-REX完全在图像空间中操作,避免了跨模态对齐的难题,从而提供更稳定的对比信号。此外,通过精心设计的采样策略,C-REX可以生成大量的负样本,从而提高学习表示的鲁棒性。
技术框架:C-REX框架主要包含以下几个模块:1) 特征提取模块:使用预训练的卷积神经网络(例如ResNet)提取图像的特征表示。2) 对象检测模块:检测图像中的对象,并提取每个对象的特征表示。3) 对比学习模块:基于监督对比学习,构建正负样本对,并使用对比损失函数来训练模型。4) 计数模块:基于学习到的对象表示,预测图像中每个指代表达式对应的对象数量。
关键创新:C-REX最重要的技术创新点在于其对比学习框架的设计。与以往工作不同,C-REX完全在图像空间中操作,避免了图像-文本对比学习中的对齐问题。此外,C-REX通过精心设计的采样策略,可以生成大量的负样本,从而提高学习表示的鲁棒性。另一个关键创新点是,论文发现检测对象中心点而非边界框是计数任务成功的关键因素,并以此为基础设计了一个简单而有效的检测基线。
关键设计:C-REX的关键设计包括:1) 使用监督对比学习损失函数,鼓励模型学习区分不同指代表达式对应的对象。2) 设计了一种新的采样策略,用于生成大量的负样本。3) 使用对象中心点检测作为对象检测模块的基础。4) 对比损失函数的温度系数τ是一个重要的超参数,需要根据具体任务进行调整。论文中使用了标准的ResNet作为特征提取器,并使用了一个简单的全连接网络作为计数模块。
🖼️ 关键图片
📊 实验亮点
C-REX在指代表达式计数任务上取得了显著的性能提升,MAE优于先前方法22%以上,RMSE优于10%以上。此外,C-REX在类别无关计数任务上也表现出强大的竞争力,证明了其通用性和有效性。代码已开源,方便研究人员复现和进一步研究。
🎯 应用场景
C-REX框架可应用于各种需要根据细粒度属性和上下文差异进行对象计数的场景,例如智能零售中的商品计数、视频监控中的人群计数、医学图像分析中的细胞计数等。该研究有助于提升计算机视觉系统在复杂场景下的感知和理解能力,为自动化和智能化应用提供更可靠的数据支持。
📄 摘要(原文)
Object counting has progressed from class-specific models, which count only known categories, to class-agnostic models that generalize to unseen categories. The next challenge is Referring Expression Counting (REC), where the goal is to count objects based on fine-grained attributes and contextual differences. Existing methods struggle with distinguishing visually similar objects that belong to the same category but correspond to different referring expressions. To address this, we propose C-REX, a novel contrastive learning framework, based on supervised contrastive learning, designed to enhance discriminative representation learning. Unlike prior works, C-REX operates entirely within the image space, avoiding the misalignment issues of image-text contrastive learning, thus providing a more stable contrastive signal. It also guarantees a significantly larger pool of negative samples, leading to improved robustness in the learned representations. Moreover, we showcase that our framework is versatile and generic enough to be applied to other similar tasks like class-agnostic counting. To support our approach, we analyze the key components of sota detection-based models and identify that detecting object centroids instead of bounding boxes is the key common factor behind their success in counting tasks. We use this insight to design a simple yet effective detection-based baseline to build upon. Our experiments show that C-REX achieves state-of-the-art results in REC, outperforming previous methods by more than 22\% in MAE and more than 10\% in RMSE, while also demonstrating strong performance in class-agnostic counting. Code is available at https://github.com/cvlab-stonybrook/c-rex.