Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models

📄 arXiv: 2410.19635v1 📥 PDF

作者: Shenghao Fu, Junkai Yan, Qize Yang, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng

分类: cs.CV

发布日期: 2024-10-25

备注: Accepted to NeurIPS 2024


💡 一句话要点

Frozen-DETR:利用冻结的预训练模型增强DETR目标检测性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 目标检测 视觉基础模型 特征增强 冻结模型 DETR DINO COCO数据集

📋 核心要点

  1. 现有目标检测方法通常需要针对特定任务进行微调,缺乏通用性和可迁移性,且忽略了视觉基础模型强大的图像理解能力。
  2. 本文提出Frozen-DETR,利用冻结的视觉基础模型作为特征增强器,通过类别token和patch token分别增强解码器和编码器的特征。
  3. 实验表明,Frozen-DETR在COCO数据集上显著提升了DINO的性能,AP值最高提升了4.8%,验证了该方法的有效性。

📝 摘要(中文)

本文提出了一种利用冻结的视觉基础模型来增强目标检测器性能的方法。研究表明,即使没有针对目标检测进行预训练,冻结的基础模型也可以作为通用的特征增强器。具体而言,本文探索了两种将基础模型的高级图像理解能力直接迁移到检测器的方法:一是利用基础模型中的类别token,为检测器解码器中的目标query提供紧凑的上下文信息,从而促进目标query的解码;二是利用基础模型中的patch token,通过提供语义细节来丰富检测器编码器中的特征。这种将冻结的基础模型作为即插即用模块的新范式,可以显著提高检测器的性能,同时避免检测器骨干网络与基础模型之间架构差异带来的问题。实验结果表明,在COCO验证集上,使用R50作为检测器骨干网络,经过12个epoch的训练后,通过集成一个或两个基础模型,可以将SOTA的基于query的检测器DINO的AP从49.0%分别提升到51.9%(+2.9% AP)和53.8%(+4.8% AP)。

🔬 方法详解

问题定义:现有目标检测方法通常依赖于针对特定任务微调的骨干网络,这限制了模型的通用性和可迁移性。同时,视觉基础模型在图像理解方面表现出强大的能力,但其在目标检测中的应用尚未得到充分挖掘,尤其是在不进行微调的情况下。现有方法难以有效利用视觉基础模型提供的丰富语义信息来提升目标检测性能。

核心思路:本文的核心思路是将冻结的视觉基础模型作为即插即用的特征增强模块,充分利用其强大的图像理解能力,而无需对其进行微调。通过将基础模型的类别token和patch token分别注入到检测器的解码器和编码器中,增强目标query的上下文信息和特征的语义细节,从而提升目标检测性能。

技术框架:Frozen-DETR的整体框架包括:1) 冻结的视觉基础模型,用于提取图像的类别token和patch token;2) 目标检测器(如DINO),其编码器和解码器分别接收来自基础模型的patch token和类别token;3) 特征融合模块,用于将基础模型的特征与检测器的特征进行融合。整个流程中,基础模型的参数保持冻结,只训练检测器的参数。

关键创新:本文最重要的技术创新在于提出了一种新的目标检测范式,即利用冻结的视觉基础模型作为特征增强器,而不是将其作为骨干网络。这种方法避免了检测器骨干网络与基础模型之间架构差异带来的问题,并充分利用了基础模型的图像理解能力。与现有方法相比,Frozen-DETR无需对基础模型进行微调,具有更高的通用性和可迁移性。

关键设计:在具体实现上,本文采用了以下关键设计:1) 使用视觉基础模型的类别token作为解码器的上下文信息,增强目标query的语义表达能力;2) 使用视觉基础模型的patch token丰富编码器的特征,提供更精细的语义细节;3) 设计了简单的特征融合模块,将基础模型的特征与检测器的特征进行有效融合;4) 实验中,选择了DINO作为基础检测器,并使用R50作为其骨干网络,在COCO数据集上进行了充分的实验验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Frozen-DETR在COCO验证集上显著提升了DINO的性能。通过集成一个基础模型,AP值从49.0%提升到51.9%(+2.9% AP);通过集成两个基础模型,AP值进一步提升到53.8%(+4.8% AP)。这些结果表明,Frozen-DETR能够有效利用冻结的视觉基础模型来增强目标检测器的性能,且无需对基础模型进行微调。

🎯 应用场景

Frozen-DETR具有广泛的应用前景,可应用于智能监控、自动驾驶、机器人视觉等领域。该方法能够有效提升目标检测的准确性和鲁棒性,尤其是在复杂场景和弱光照条件下。未来,可以进一步探索将Frozen-DETR应用于其他视觉任务,如图像分割、目标跟踪等,并结合多模态信息,实现更强大的视觉感知能力。

📄 摘要(原文)

Recent vision foundation models can extract universal representations and show impressive abilities in various tasks. However, their application on object detection is largely overlooked, especially without fine-tuning them. In this work, we show that frozen foundation models can be a versatile feature enhancer, even though they are not pre-trained for object detection. Specifically, we explore directly transferring the high-level image understanding of foundation models to detectors in the following two ways. First, the class token in foundation models provides an in-depth understanding of the complex scene, which facilitates decoding object queries in the detector's decoder by providing a compact context. Additionally, the patch tokens in foundation models can enrich the features in the detector's encoder by providing semantic details. Utilizing frozen foundation models as plug-and-play modules rather than the commonly used backbone can significantly enhance the detector's performance while preventing the problems caused by the architecture discrepancy between the detector's backbone and the foundation model. With such a novel paradigm, we boost the SOTA query-based detector DINO from 49.0% AP to 51.9% AP (+2.9% AP) and further to 53.8% AP (+4.8% AP) by integrating one or two foundation models respectively, on the COCO validation set after training for 12 epochs with R50 as the detector's backbone.