COVD: Continual Open-Vocabulary Object Detection with Novel Concept Injection
作者: Yupeng Zhang, Ruize Han, Yuzhong Feng, Zixin Ren, Yuntong Tian, Liang Wan
分类: cs.CV
发布日期: 2026-05-26
💡 一句话要点
提出NoIn-Det,解决持续开放词汇目标检测中新概念注入问题,无需额外参数。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇目标检测 持续学习 新概念注入 视觉语言模型 无参数学习
📋 核心要点
- 现有开放词汇目标检测模型难以适应不断涌现的新概念,且完全重新训练成本过高。
- 提出NoIn-Det框架,通过冻结视觉编码器并选择性更新文本分支参数,实现新概念的有效注入。
- 实验表明,NoIn-Det在学习新概念、保留旧知识方面均优于现有持续学习方法,且无需额外参数。
📝 摘要(中文)
开放词汇目标检测(OVD)取得了显著进展,使检测器能够从已知类别泛化到未知类别。然而,现实世界的类别空间不断发展,现有的OVD模型仍然难以处理新出现的概念,而重复的完全重新训练成本高昂。为此,我们引入了一个新的任务设置,称为具有新概念注入的持续OVD(COVD),其中模型按顺序学习传入的新概念组,同时保留先前的概念和原始的开放词汇知识,以及一个新的基准,Novel-114。我们的关键观察是,预训练的视觉编码器通常已经感知和表示了许多新概念,主要的瓶颈在于视觉表示和文本概念之间缺乏稳定的语义对齐。基于此,我们提出了NoIn-Det,一个高效的持续注入框架,无需额外的参数。NoIn-Det冻结了视觉编码器,仅使用通用概念和先前注入的概念的文本来保留文本表示空间,并通过仅更新有利于新概念学习的一小部分文本分支参数来注入新概念。大量实验表明,NoIn-Det有效地学习了新概念,保留了旧知识,并且始终优于现有的VLM持续学习方法,而无需引入额外的参数。Novel-114和代码将会发布。
🔬 方法详解
问题定义:论文旨在解决持续开放词汇目标检测(Continual Open-Vocabulary Object Detection, COVD)问题。现有开放词汇目标检测模型在面对不断涌现的新概念时,需要进行代价高昂的完全重新训练。此外,如何有效地将新概念融入现有模型,同时保持对先前概念的识别能力,是一个挑战。
核心思路:论文的核心思路是,预训练的视觉编码器已经具备感知和表示许多新概念的能力,关键在于视觉表示和文本概念之间缺乏稳定的语义对齐。因此,通过专注于文本表示空间的调整,可以有效地注入新概念,而无需修改视觉编码器。
技术框架:NoIn-Det框架主要包含以下几个关键模块:1) 冻结的视觉编码器:利用预训练视觉编码器提取图像特征,并保持其参数不变。2) 保留的文本表示空间:仅使用通用概念和先前注入的概念的文本来维持文本表示空间,防止灾难性遗忘。3) 选择性更新的文本分支:仅更新文本分支中对新概念学习有益的一小部分参数,以实现高效的新概念注入。
关键创新:NoIn-Det的关键创新在于,它提出了一种无需额外参数的持续注入框架,通过冻结视觉编码器和选择性更新文本分支,实现了新概念的有效学习和旧知识的保留。这与传统的持续学习方法需要引入额外的参数或复杂的正则化策略不同。
关键设计:NoIn-Det的关键设计包括:1) 冻结视觉编码器,避免对视觉特征提取器的修改,从而保持对先前概念的识别能力。2) 使用通用概念和先前注入的概念的文本来约束文本表示空间,防止灾难性遗忘。3) 通过实验确定需要更新的文本分支参数子集,以实现高效的新概念注入。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,NoIn-Det在持续开放词汇目标检测任务中表现出色,能够有效地学习新概念并保留旧知识。该方法优于现有的VLM持续学习方法,并且无需引入额外的参数,具有很高的实用价值。具体的性能数据和对比基线需要在论文全文中查找,属于未知信息。
🎯 应用场景
该研究成果可应用于智能监控、自动驾驶、机器人等领域,使系统能够持续学习和识别新出现的物体类别,提高其在复杂动态环境中的适应性和泛化能力。例如,在零售场景中,系统可以不断学习新的商品种类,而无需频繁地进行完全重新训练。
📄 摘要(原文)
Open-vocabulary object detection (OVD) has made significant progress, enabling detectors to generalize from seen to unseen categories. However, real-world category spaces continually evolve, and existing OVD models still struggle with newly emerging concepts, while repeated full retraining is prohibitively expensive. To this end, we introduce a new task setting, termed Continual OVD with Novel Concept Injection (COVD), where models sequentially learn incoming novel concept groups while preserving prior concepts and original open-vocabulary knowledge, along with a new benchmark, Novel-114. Our key observation is that pretrained visual encoders often already perceive and represent many novel concepts, and the main bottleneck lies in the lack of stable semantic alignment between visual representations and textual concepts. Based on this, we propose NoIn-Det, an efficient continual injection framework without additional parameters. NoIn-Det freezes the visual encoder, preserves the text representation space using only texts of common concepts and previously injected concepts, and injects novel concepts by updating only a small subset of text-branch parameters beneficial to novel concept learning. Extensive experiments show that NoIn-Det effectively learns novel concepts, preserves old knowledge, and consistently outperforms existing continual learning methods for VLMs without introducing additional parameters.Novel-114 and the code will be released.