C3-OWD: A Curriculum Cross-modal Contrastive Learning Framework for Open-World Detection

📄 arXiv: 2509.23316v2 📥 PDF

作者: Siheng Wang, Zhengdao Li, Yanshu Li, Canran Xiao, Haibo Zhan, Zhengtao Yao, Xuzhi Zhang, Jiale Kang, Linshan Li, Weiming Liu, Zhikang Dong, Jifeng Shen, Junhao Dong, Qiang Sun, Piotr Koniusz

分类: cs.CV

发布日期: 2025-09-27 (更新: 2025-12-13)

备注: one of the authors doesn't agree any more

🔗 代码/项目: GITHUB


💡 一句话要点

提出C3-OWD框架以解决开放世界检测中的鲁棒性与多样性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 开放世界检测 跨模态学习 对比学习 视觉-语言对齐 鲁棒性 泛化能力 课程学习 EMA机制

📋 核心要点

  1. 现有方法在开放世界检测中面临鲁棒性与泛化能力的双重挑战,难以同时满足。
  2. C3-OWD框架通过课程学习策略,分阶段增强鲁棒性和泛化能力,避免灾难性遗忘。
  3. 实验结果显示,C3-OWD在多个数据集上均取得了竞争力的性能,验证了其有效性。

📝 摘要(中文)

物体检测在封闭集环境中取得了显著进展,但在实际应用中仍面临两个主要挑战:对未见类别的泛化能力差和在恶劣条件下的鲁棒性不足。以往研究分别探讨了这些问题:可见-红外检测提高了鲁棒性,但缺乏泛化能力;而开放世界检测利用视觉-语言对齐策略实现类别多样性,但在极端环境下表现不佳。为了解决这些问题,本文提出了C3-OWD,一个课程跨模态对比学习框架,统一了两者的优势。通过在RGBT数据上进行预训练来增强鲁棒性,并通过视觉-语言对齐来改善泛化能力。实验结果表明,C3-OWD在FLIR、OV-COCO和OV-LVIS数据集上均表现出色,验证了其有效性。

🔬 方法详解

问题定义:本文旨在解决开放世界检测中鲁棒性与泛化能力不足的问题。现有方法通常只能在特定条件下有效,难以适应真实世界的复杂性。

核心思路:C3-OWD框架通过课程学习的方式,分为两个阶段:第一阶段使用RGBT数据进行预训练以增强鲁棒性,第二阶段通过视觉-语言对齐来提升泛化能力,从而实现两者的统一。

技术框架:整体架构分为两个主要阶段:第一阶段专注于鲁棒性,通过多模态数据进行预训练;第二阶段则利用视觉-语言对齐策略进行泛化能力的提升。同时,引入指数移动平均(EMA)机制以防止灾难性遗忘。

关键创新:引入EMA机制是本文的核心创新之一,它理论上保证了在两个阶段之间的性能保持,避免了模型在学习新任务时对旧任务性能的损害。

关键设计:在参数设置上,采用了特定的损失函数以平衡两个阶段的学习目标,并设计了适应性网络结构以支持多模态数据的处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在FLIR数据集上,C3-OWD达到了80.1的AP50,在OV-COCO上获得了48.6的AP50(Novel),在OV-LVIS上实现了35.7的mAP_r,展现了在鲁棒性和多样性评估中的竞争力表现,显著优于基线方法。

🎯 应用场景

C3-OWD框架具有广泛的应用潜力,特别是在需要高鲁棒性和多样性识别的场景中,如自动驾驶、安防监控和机器人视觉等领域。其创新的学习策略能够有效提升模型在复杂环境下的表现,推动相关技术的发展。

📄 摘要(原文)

Object detection has advanced significantly in the closed-set setting, but real-world deployment remains limited by two challenges: poor generalization to unseen categories and insufficient robustness under adverse conditions. Prior research has explored these issues separately: visible-infrared detection improves robustness but lacks generalization, while open-world detection leverages vision-language alignment strategy for category diversity but struggles under extreme environments. This trade-off leaves robustness and diversity difficult to achieve simultaneously. To mitigate these issues, we propose \textbf{C3-OWD}, a curriculum cross-modal contrastive learning framework that unifies both strengths. Stage~1 enhances robustness by pretraining with RGBT data, while Stage~2 improves generalization via vision-language alignment. To prevent catastrophic forgetting between two stages, we introduce an Exponential Moving Average (EMA) mechanism that theoretically guarantees preservation of pre-stage performance with bounded parameter lag and function consistency. Experiments on FLIR, OV-COCO, and OV-LVIS demonstrate the effectiveness of our approach: C3-OWD achieves $80.1$ AP$^{50}$ on FLIR, $48.6$ AP$^{50}_{\text{Novel}}$ on OV-COCO, and $35.7$ mAP$_r$ on OV-LVIS, establishing competitive performance across both robustness and diversity evaluations. Code available at: https://github.com/justin-herry/C3-OWD.git.