DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts
作者: Bo Qian, Dahu Shi, Xing Wei
分类: cs.CV
发布日期: 2026-04-16
备注: Published as a conference paper at ICLR 2026
💡 一句话要点
提出DETR-ViP,通过增强视觉提示的判别性,提升开放词汇目标检测性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 目标检测 视觉提示 开放词汇检测 Transformer 对比学习
📋 核心要点
- 现有视觉提示目标检测方法性能不足,主要原因是视觉提示缺乏全局判别性,限制了其在开放词汇检测中的应用。
- DETR-ViP通过全局提示集成和视觉-文本提示关系蒸馏,学习更具判别性的视觉提示表示,提升模型对不同类别的区分能力。
- 在多个数据集上的实验表明,DETR-ViP显著优于现有方法,验证了所提出的改进的有效性,并提升了视觉提示检测的性能。
📝 摘要(中文)
视觉提示目标检测通过交互式和灵活的目标类别定义,促进了开放词汇检测。由于视觉提示直接从图像特征中提取,因此在识别稀有类别时通常优于文本提示。然而,对视觉提示检测的研究在很大程度上被忽视,通常被视为训练文本提示检测器的副产品,这阻碍了其发展。为了充分释放视觉提示检测的潜力,我们研究了其性能欠佳的原因,并揭示了根本问题在于视觉提示缺乏全局判别性。基于这些观察,我们提出了DETR-ViP,一个鲁棒的目标检测框架,可以产生具有类区分性的视觉提示。在基本的图像-文本对比学习的基础上,DETR-ViP结合了全局提示集成和视觉-文本提示关系蒸馏,以学习更具判别性的提示表示。此外,DETR-ViP采用了一种选择性融合策略,以确保稳定和鲁棒的检测。在COCO、LVIS、ODinW和Roboflow100上的大量实验表明,与其他最先进的同类方法相比,DETR-ViP在视觉提示检测中取得了显著更高的性能。一系列消融研究和分析进一步验证了所提出的改进的有效性,并阐明了增强视觉提示检测能力的根本原因。
🔬 方法详解
问题定义:论文旨在解决视觉提示目标检测中,由于视觉提示缺乏全局判别性而导致的性能瓶颈问题。现有方法通常将视觉提示检测作为文本提示检测的副产品,忽略了视觉提示本身的优化,导致其在开放词汇检测中的潜力未能充分发挥。
核心思路:论文的核心思路是通过增强视觉提示的判别性来提升目标检测性能。具体而言,通过全局提示集成和视觉-文本提示关系蒸馏,使视觉提示能够更好地捕捉图像中的全局信息,并与文本提示建立更强的关联,从而提高模型对不同类别的区分能力。
技术框架:DETR-ViP的整体框架基于DETR(Detection Transformer)。首先,使用图像编码器提取图像特征。然后,通过全局提示集成模块,将全局上下文信息融入视觉提示中。接着,利用视觉-文本提示关系蒸馏模块,学习视觉提示和文本提示之间的关系。最后,通过选择性融合策略,将视觉提示和图像特征融合,进行目标检测。
关键创新:论文的关键创新在于提出了全局提示集成和视觉-文本提示关系蒸馏两种方法,用于增强视觉提示的判别性。全局提示集成通过引入全局上下文信息,使视觉提示能够更好地捕捉图像中的整体结构。视觉-文本提示关系蒸馏则通过学习视觉提示和文本提示之间的关系,使视觉提示能够更好地理解图像中的语义信息。
关键设计:全局提示集成模块使用Transformer结构,将图像特征作为输入,输出融合了全局上下文信息的视觉提示。视觉-文本提示关系蒸馏模块使用对比学习损失,鼓励视觉提示和文本提示在语义空间中对齐。选择性融合策略使用可学习的权重,动态地调整视觉提示和图像特征的融合比例。
🖼️ 关键图片
📊 实验亮点
DETR-ViP在COCO、LVIS、ODinW和Roboflow100等数据集上取得了显著的性能提升。例如,在LVIS数据集上,DETR-ViP的AP (Average Precision) 相比于现有最佳方法提升了多个百分点,证明了其在视觉提示目标检测方面的优越性。消融实验也验证了全局提示集成和视觉-文本提示关系蒸馏的有效性。
🎯 应用场景
DETR-ViP在开放词汇目标检测领域具有广泛的应用前景,例如智能安防、自动驾驶、图像搜索等。它可以根据用户提供的视觉提示,灵活地检测图像中感兴趣的目标,而无需预先定义所有目标类别。此外,该研究还可以促进视觉提示学习和多模态融合技术的发展。
📄 摘要(原文)
Visual prompted object detection enables interactive and flexible definition of target categories, thereby facilitating open-vocabulary detection. Since visual prompts are derived directly from image features, they often outperform text prompts in recognizing rare categories. Nevertheless, research on visual prompted detection has been largely overlooked, and it is typically treated as a byproduct of training text prompted detectors, which hinders its development. To fully unlock the potential of visual-prompted detection, we investigate the reasons why its performance is suboptimal and reveal that the underlying issue lies in the absence of global discriminability in visual prompts. Motivated by these observations, we propose DETR-ViP, a robust object detection framework that yields class-distinguishable visual prompts. On top of basic image-text contrastive learning, DETR-ViP incorporates global prompt integration and visual-textual prompt relation distillation to learn more discriminative prompt representations. In addition, DETR-ViP employs a selective fusion strategy that ensures stable and robust detection. Extensive experiments on COCO, LVIS, ODinW, and Roboflow100 demonstrate that DETR-ViP achieves substantially higher performance in visual prompt detection compared to other state-of-the-art counterparts. A series of ablation studies and analyses further validate the effectiveness of the proposed improvements and shed light on the underlying reasons for the enhanced detection capability of visual prompts.