Consistency Beyond Contrast: Enhancing Open-Vocabulary Object Detection Robustness via Contextual Consistency Learning

📄 arXiv: 2603.26179v1 📥 PDF

作者: Bozhao Li, Shaocong Wu, Tong Shao, Senqiao Yang, Qiben Shan, Zhuotao Tian, Jingyong Su

分类: cs.CV

发布日期: 2026-03-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出上下文一致性学习框架,提升开放词汇目标检测在不同场景下的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 上下文一致性学习 数据增强 对比学习 鲁棒性 泛化能力 目标检测

📋 核心要点

  1. 现有开放词汇目标检测方法忽略了单模态内部一致性,导致模型在不同场景下检测同一对象时性能下降。
  2. 论文提出上下文一致性学习(CCL)框架,通过上下文引导的数据生成和一致性损失,增强模型在不同环境下的鲁棒性。
  3. 实验结果表明,CCL框架在OmniLabel和D3数据集上显著超越现有方法,验证了模态内一致性的重要性。

📝 摘要(中文)

本文提出了一种名为上下文一致性学习(CCL)的新框架,旨在解决开放词汇目标检测中因背景或环境变化导致的内部一致性缺失问题。现有方法主要侧重于扩大数据集和利用对比学习对齐语言和视觉模态,但忽略了单模态内部的一致性。CCL框架包含两个关键策略:上下文引导的数据生成(CBDG)和上下文一致性损失(CCLoss)。CBDG作为一种数据生成机制,生成包含相同对象但背景不同的图像,弥补现有数据集的不足。CCLoss进一步增强了对象特征在环境变化下的不变性,从而提高模型在不同场景中的鲁棒性。实验结果表明,该方法取得了最先进的性能,在OmniLabel数据集上超过先前方法+16.3 AP,在D3数据集上超过+14.9 AP。这些结果验证了强制模态内一致性的重要性,显著提升了模型在不同环境中的泛化能力。

🔬 方法详解

问题定义:开放词汇目标检测旨在检测图像中任意类别的物体,但现有方法在面对不同背景或环境时,对同一物体的检测性能会显著下降。这是因为现有方法主要关注视觉和语言模态的对齐,而忽略了视觉模态内部,即上下文环境变化时特征表示的一致性。这种上下文不一致性导致模型泛化能力不足。

核心思路:论文的核心思路是强制模型学习在不同上下文环境中保持一致的物体特征表示。通过生成具有不同背景但包含相同物体的图像,并设计一致性损失函数,促使模型提取与上下文无关的、更本质的物体特征。这样,即使背景发生变化,模型也能准确识别物体。

技术框架:CCL框架包含两个主要模块:上下文引导的数据生成(CBDG)和上下文一致性损失(CCLoss)。首先,CBDG模块生成一系列包含相同物体但背景不同的图像。然后,这些图像被输入到目标检测模型中,模型提取物体特征。最后,CCLoss模块计算不同背景下同一物体特征之间的差异,并将其作为损失函数的一部分,用于优化模型。

关键创新:关键创新在于同时考虑了数据生成和损失函数设计,以解决上下文一致性问题。CBDG模块通过数据增强的方式,为模型提供了更多样化的训练样本。CCLoss模块则直接约束模型学习上下文不变的特征表示。这种数据增强和损失函数设计的结合,是提升模型鲁棒性的关键。

关键设计:CBDG模块使用图像编辑技术,将物体从原始图像中提取出来,并将其粘贴到不同的背景图像上,从而生成新的训练样本。CCLoss模块使用对比学习的思想,鼓励模型学习相似物体在不同背景下的相似特征表示,并惩罚不同物体之间的相似特征表示。具体的损失函数形式可以根据实际情况进行调整,例如可以使用InfoNCE损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CCL框架在OmniLabel数据集上取得了显著的性能提升,AP值超过先前方法16.3个百分点,在D3数据集上AP值超过先前方法14.9个百分点。这些结果表明,强制模态内一致性能够显著提升模型在不同环境下的泛化能力,验证了CCL框架的有效性。代码已开源。

🎯 应用场景

该研究成果可应用于自动驾驶、智能监控、机器人导航等领域。在这些场景中,目标检测系统需要在复杂的、不断变化的环境中准确识别物体。通过提高模型在不同场景下的鲁棒性,可以提升系统的可靠性和安全性,减少误判和漏检的风险。未来,该方法还可以扩展到其他视觉任务中,例如图像分类、图像分割等。

📄 摘要(原文)

Recent advances in open-vocabulary object detection focus primarily on two aspects: scaling up datasets and leveraging contrastive learning to align language and vision modalities. However, these approaches often neglect internal consistency within a single modality, particularly when background or environmental changes occur. This lack of consistency leads to a performance drop because the model struggles to detect the same object in different scenes, which reveals a robustness gap. To address this issue, we introduce Contextual Consistency Learning (CCL), a novel framework that integrates two key strategies: Contextual Bootstrapped Data Generation (CBDG) and Contextual Consistency Loss (CCLoss). CBDG functions as a data generation mechanism, producing images that contain the same objects across diverse backgrounds. This is essential because existing datasets alone do not support our CCL framework. The CCLoss further enforces the invariance of object features despite environmental changes, thereby improving the model's robustness in different scenes. These strategies collectively form a unified framework for ensuring contextual consistency within the same modality. Our method achieves state-of-the-art performance, surpassing previous approaches by +16.3 AP on OmniLabel and +14.9 AP on D3. These results demonstrate the importance of enforcing intra-modal consistency, significantly enhancing model generalization in diverse environments. Our code is publicly available at: https://github.com/bozhao-li/CCL.