DetRefiner: Model-Agnostic Detection Refinement with Feature Fusion Transformer

📄 arXiv: 2605.10190v1 📥 PDF

作者: Soichiro Okazaki, Tatsuya Sasaki, Hiroki Ohashi

分类: cs.CV

发布日期: 2026-05-11

备注: CVPR 2026 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出DetRefiner框架,通过特征融合Transformer实现模型无关的开放词汇检测优化

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇检测 特征融合 Transformer编码器 模型无关 置信度校准 计算机视觉

📋 核心要点

  1. 现有开放词汇检测方法在处理新颖对象时,因缺乏对全局与局部上下文信息的有效整合,导致泛化能力受限。
  2. 提出DetRefiner框架,通过轻量级Transformer编码器融合全局图像特征与局部补丁特征,实现对检测置信度的动态校准。
  3. 该方法具有模型无关性,无需访问基础模型内部参数或重训练,在多个基准测试中显著提升了新颖类别的检测精度。

📝 摘要(中文)

开放词汇目标检测(OVOD)旨在识别已知与未知类别,但现有方法因全局与局部上下文信息整合不足,难以泛化至新颖对象。本文提出了DetRefiner,这是一个简单且高效的即插即用框架,通过学习融合全局与局部特征来优化开放词汇检测。DetRefiner利用轻量级Transformer编码器处理来自基础模型(如DINOv3)的全局图像特征与补丁级特征,生成捕捉图像级属性的类向量和代表局部区域属性的补丁向量,进而推断属性可靠性以校准基础模型的置信度。DetRefiner独立于基础OVOD模型训练,无需访问其内部特征或进行重训练。推理时,它仅基于基础检测器的预测结果生成辅助校准分数,并与原始分数融合。实验表明,DetRefiner在COCO、LVIS、ODinW13和Pascal VOC等数据集上显著提升了多个OVOD模型的性能,在新颖类别上最高提升了10.1 AP,证明了融合全局与局部表示在开放世界检测中的强大潜力。

🔬 方法详解

问题定义:开放词汇目标检测(OVOD)的核心痛点在于模型对未见类别的泛化能力不足。现有方法往往过度依赖局部特征,忽略了全局上下文对目标判别的辅助作用,导致在新颖类别上的置信度校准偏差。

核心思路:DetRefiner旨在通过引入一个独立的校准模块,利用Transformer捕捉全局图像属性与局部区域特征之间的关联,从而评估检测结果的可靠性,并对基础检测器的输出进行后处理修正。

技术框架:该框架由一个轻量级Transformer编码器组成。输入端接收基础检测器提供的预测框及对应的图像特征(如DINOv3提取的全局与补丁特征)。编码器输出类向量(Class Vector)与补丁向量(Patch Vectors),通过计算属性可靠性分数,对原始检测置信度进行加权或修正。

关键创新:最大的创新在于其“模型无关(Model-Agnostic)”的特性。它将检测优化视为一个独立的校准任务,完全解耦了检测器与优化器,使得该方法可以作为插件直接应用于任何现有的OVOD模型,无需修改原模型架构。

关键设计:DetRefiner在训练时独立于基础检测器,通过学习预测辅助校准分数(Auxiliary Calibration Scores)。在推理阶段,将这些分数与基础检测器的原始置信度进行融合,从而在不增加复杂推理开销的前提下,显著提升对新颖类别的识别准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DetRefiner在多个主流基准测试中表现优异,特别是在新颖类别检测上展现了显著的性能增益。实验数据显示,该方法在COCO、LVIS、ODinW13及Pascal VOC等数据集上均实现了性能提升,在新颖类别上的AP值最高提升幅度达到10.1,验证了其作为通用检测优化工具的有效性。

🎯 应用场景

该技术可广泛应用于需要处理长尾分布或未知类别的开放世界视觉系统,如自动驾驶中的长尾障碍物检测、机器人视觉感知以及工业自动化中的异常检测。其即插即用的特性使其极具工程价值,能够低成本地提升现有部署模型的鲁棒性与泛化能力。

📄 摘要(原文)

Open-vocabulary object detection (OVOD) aims to detect both seen and unseen categories, yet existing methods often struggle to generalize to novel objects due to limited integration of global and local contextual cues. We propose DetRefiner, a simple yet effective plug-and-play framework that learns to fuse global and local features to refine open-vocabulary detection. DetRefiner processes global image features and patch-level image features from foundational models (e.g., DINOv3) through a lightweight Transformer encoder. The encoder produces a class vector capturing image-level attributes and patch vectors representing local region attributes, from which attribute reliability is inferred to recalibrate the base model's confidence. Notably, DetRefiner is trained independently of the base OVOD model, requiring neither access to its internal features nor retraining. At inference, it operates solely on the base detector's predictions, producing auxiliary calibration scores that are merged with the base detector's scores to yield the final refined confidence. Despite this simplicity, DetRefiner consistently enhances multiple OVOD models across COCO, LVIS, ODinW13, and Pascal VOC, achieving gains of up to +10.1 AP on novel categories. These results highlight that learning to fuse global and local representations offers a powerful and general mechanism for advancing open-world object detection. Our codes and models are available at https://github.com/hitachi-rd-cv/detrefiner.