ExDet: Open-Domain Open-Vocabulary Detection with Cross-modal Extrapolation and Rectification

📄 arXiv: 2606.09360v1 📥 PDF

作者: Yupeng Zhang, Yuzhong Feng, Ruize Han, Zhiwei Chen, Wei Feng, Liang Wan

分类: cs.CV

发布日期: 2026-06-08


💡 一句话要点

提出ExDet以解决开放域开放词汇检测问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放域检测 开放词汇检测 跨领域泛化 视觉-语言模型 轻量级框架 检测器兼容修正 文本引导外推 性能提升

📋 核心要点

  1. 现有方法在开放域开放词汇检测中面临高训练成本和泛化能力不足的挑战。
  2. 本文提出ExDet框架,通过文本引导外推和检测器兼容修正模块,增强检测器的跨类别和跨领域泛化能力。
  3. ExDet在多个数据集上实现了最先进的性能,显著提高了对新类别和未见领域目标的检测效果。

📝 摘要(中文)

开放域开放词汇检测(ODOVD)要求检测器能够对新类别和未见领域进行泛化,这比开放词汇检测更具挑战性。现有方法通常从头开始训练开放词汇检测器和领域泛化模块,导致训练成本高昂。为此,本文提出了ExDet,一个轻量级的类别-领域协同泛化框架,旨在增强现有检测器的跨类别和跨领域泛化能力。ExDet由文本引导外推(TGE)、轻量级检测器兼容修正(DCR)模块和ExRPN组成。具体而言,TGE利用视觉-语言模型的DeltaSpace特性,从文本中推断类别和领域感知的代理视觉原型。DCR在无检测器训练和无真实数据的情况下,从TGE生成的原型中学习,并在推理时插入分类头后,以修正表示,使其更接近检测器兼容的源领域视觉分布,从而增强对新类别和未见领域目标的分类能力。ExRPN通过结合语义相似性与RPN置信度来重新校准提议分数,提高了对新颖和领域转移对象的召回率,同时为后续分类和DCR提供了更好的支持。ExDet在OD-LVIS、OV-LVIS、Objects365和MSOSB上实现了SOTA性能。

🔬 方法详解

问题定义:本文旨在解决开放域开放词汇检测(ODOVD)中检测器对新类别和未见领域的泛化能力不足的问题。现有方法通常需要高昂的训练成本,且难以有效地进行领域泛化。

核心思路:ExDet框架通过引入文本引导外推(TGE)和轻量级检测器兼容修正(DCR)模块,旨在在无检测器训练和无真实数据的情况下,增强检测器的泛化能力。TGE利用视觉-语言模型的DeltaSpace特性,从文本中推导出类别和领域感知的视觉原型。

技术框架:ExDet的整体架构包括三个主要模块:文本引导外推(TGE)、检测器兼容修正(DCR)和ExRPN。TGE生成视觉原型,DCR在推理时修正表示,ExRPN则通过结合语义相似性与RPN置信度来提升提议分数。

关键创新:ExDet的核心创新在于其轻量级的设计,特别是DCR模块的引入,使得检测器在无训练的情况下能够适应新类别和领域。这一设计与现有方法的本质区别在于其高效性和灵活性。

关键设计:在DCR模块中,采用了特定的损失函数和网络结构,以确保生成的视觉原型能够有效地与检测器的源领域视觉分布相匹配。同时,ExRPN的设计也考虑了语义相似性与置信度的结合,以提高召回率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ExDet在OD-LVIS、OV-LVIS、Objects365和MSOSB数据集上实现了最先进的性能,具体表现为在多个任务中显著提高了对新类别和未见领域目标的检测召回率,展示了其在开放域检测中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能监控、自动驾驶、机器人视觉等,能够在多变的环境中有效识别新类别和未见目标,具有重要的实际价值。未来,ExDet可能推动开放域检测技术的发展,提升智能系统的适应能力和灵活性。

📄 摘要(原文)

Open-domain open-vocabulary detection (ODOVD) requires detectors to generalize to both novel categories and unseen domains, making it more challenging than open-vocabulary detection. Existing methods typically train open-vocabulary detectors together with domain generalization modules from scratch, leading to high training cost. we propose ExDet, a lightweight category-domain collaborative generalization framework for ODOVD that enhances the cross-category and cross-domain generalization of existing detectors. ExDet consists of Text-Guided Extrapolation (TGE), a lightweight Detector-Compatible Rectification (DCR) module, and ExRPN. Specifically, TGE exploits the DeltaSpace property of vision-language models (VLMs) to infer category- and domain-aware proxy visual prototypes from text. DCR is learned from the TGE-generated prototypes in a detector training-free and real-data-free manner, and is inserted after the classification head at inference to rectify representations toward a detector-compatible source-domain visual distribution, thereby enhancing classification for targets from novel categories and unseen domains. ExRPN recalibrates proposal scores by combining semantic similarity with RPN confidence, improving recall for novel and domain-shifted objects while providing better support for subsequent classification and DCR. ExDet achieves SOTA performance on OD-LVIS, OV-LVIS, Objects365, and MSOSB.