Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm
作者: Jinrong Zhang, Penghui Wang, Chunxiao Liu, Wei Liu, Dian Jin, Qiong Zhang, Erli Meng, Zhengnan Hu
分类: cs.CV, cs.AI
发布日期: 2024-12-14
备注: Accepted by AAAI2025
💡 一句话要点
提出基于图像提示范式的MI Grounding框架,用于开放集目标检测与分割
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放集目标检测 开放集语义分割 图像提示学习 视觉提示 零样本学习
📋 核心要点
- 现有开放集检测和分割方法依赖文本或交互式视觉提示,前者难以描述专业类别,后者依赖人工干预。
- 提出图像提示范式,利用少量图像实例作为提示,实现单阶段、非交互式的开放集检测与分割。
- 构建MI Grounding框架,自动编码、选择和融合图像提示,在公共数据集和专业数据集上验证了有效性。
📝 摘要(中文)
为了突破预训练模型在固定类别上的限制,开放集目标检测(OSOD)和开放集分割(OSS)引起了研究者的广泛兴趣。受大型语言模型的启发,主流的OSOD和OSS方法通常利用文本作为提示,取得了显著的性能。遵循SAM范式,一些研究者使用视觉提示,例如覆盖检测或分割目标的点、框和掩码。尽管这两种提示范式表现出优异的性能,但也暴露了固有的局限性。一方面,很难使用文本描述准确地描述专业类别的特征。另一方面,现有的视觉提示范式严重依赖于多轮人机交互,这阻碍了它们应用于全自动管道。为了解决上述问题,我们提出了一种新的OSOD和OSS提示范式,即图像提示范式。这种全新的提示范式能够检测或分割专业类别,而无需多轮人工干预。为了实现这一目标,所提出的图像提示范式仅使用少量图像实例作为提示,并且我们为此新范式提出了一个名为MI Grounding的新框架。在这个框架中,高质量的图像提示被自动编码、选择和融合,从而实现单阶段和非交互式推理。我们在公共数据集上进行了广泛的实验,表明与文本提示范式方法和视觉提示范式方法相比,MI Grounding在OSOD和OSS基准测试中取得了具有竞争力的性能。此外,MI Grounding在我们构建的专业ADR50K数据集上可以大大优于现有方法。
🔬 方法详解
问题定义:现有开放集目标检测(OSOD)和开放集分割(OSS)方法主要依赖于文本提示或视觉提示。文本提示难以准确描述专业领域的特定类别,而现有的视觉提示方法(如基于SAM的方法)通常需要多轮人机交互,无法应用于全自动化的流程。因此,如何实现无需人工干预,且能有效处理专业类别目标的开放集检测与分割是一个关键问题。
核心思路:论文的核心思路是利用图像本身作为提示信息,即“图像提示范式”。通过提供少量目标类别的图像实例,模型能够学习并识别这些类别,而无需依赖文本描述或人工交互。这种方法的优势在于能够直接利用视觉信息,避免了文本描述的歧义性和人工标注的成本。
技术框架:MI Grounding框架主要包含以下几个模块:1) 图像提示编码器:用于提取图像提示的特征表示。2) 提示选择模块:从多个图像提示中选择高质量的提示。3) 提示融合模块:将选择的提示特征与输入图像的特征进行融合。4) 检测/分割头:基于融合后的特征进行目标检测或分割。整个流程是单阶段的,无需迭代优化或人工干预。
关键创新:该论文的关键创新在于提出了“图像提示范式”,并设计了相应的MI Grounding框架。与传统的文本提示和交互式视觉提示相比,图像提示范式能够更好地处理专业领域的特定类别,并且无需人工干预,实现了全自动化的开放集检测与分割。
关键设计:图像提示编码器可以使用预训练的视觉模型(如CLIP的图像编码器)进行初始化,以提取图像的全局特征。提示选择模块可以通过计算提示特征之间的相似度或使用注意力机制来选择高质量的提示。提示融合模块可以使用简单的加权平均或更复杂的注意力机制来融合提示特征和图像特征。损失函数可以采用标准的检测或分割损失函数,例如交叉熵损失或Dice损失。
🖼️ 关键图片
📊 实验亮点
MI Grounding在公共OSOD和OSS数据集上取得了与文本提示和视觉提示方法相当甚至更优的性能。更重要的是,在作者构建的专业ADR50K数据集上,MI Grounding显著优于现有方法,验证了其在专业领域目标检测与分割方面的优势。实验结果表明,图像提示范式能够有效处理专业类别,并实现全自动化的开放集检测与分割。
🎯 应用场景
该研究成果可应用于多种场景,例如医学图像分析(识别罕见疾病的病灶)、遥感图像分析(识别特定类型的地物)、工业质检(检测特定缺陷)等。通过提供少量目标类别的图像样本,即可快速部署模型,无需大量标注数据和人工干预,具有很高的实用价值和应用前景。
📄 摘要(原文)
To break through the limitations of pre-training models on fixed categories, Open-Set Object Detection (OSOD) and Open-Set Segmentation (OSS) have attracted a surge of interest from researchers. Inspired by large language models, mainstream OSOD and OSS methods generally utilize text as a prompt, achieving remarkable performance. Following SAM paradigm, some researchers use visual prompts, such as points, boxes, and masks that cover detection or segmentation targets. Despite these two prompt paradigms exhibit excellent performance, they also reveal inherent limitations. On the one hand, it is difficult to accurately describe characteristics of specialized category using textual description. On the other hand, existing visual prompt paradigms heavily rely on multi-round human interaction, which hinders them being applied to fully automated pipeline. To address the above issues, we propose a novel prompt paradigm in OSOD and OSS, that is, \textbf{Image Prompt Paradigm}. This brand new prompt paradigm enables to detect or segment specialized categories without multi-round human intervention. To achieve this goal, the proposed image prompt paradigm uses just a few image instances as prompts, and we propose a novel framework named \textbf{MI Grounding} for this new paradigm. In this framework, high-quality image prompts are automatically encoded, selected and fused, achieving the single-stage and non-interactive inference. We conduct extensive experiments on public datasets, showing that MI Grounding achieves competitive performance on OSOD and OSS benchmarks compared to text prompt paradigm methods and visual prompt paradigm methods. Moreover, MI Grounding can greatly outperform existing method on our constructed specialized ADR50K dataset.