HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection

📄 arXiv: 2409.16136v1 📥 PDF

作者: Yuqi Ma, Mengyin Liu, Chao Zhu, Xu-Cheng Yin

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2024-09-24

备注: This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出HA-FGOVD,通过显式线性组合高亮细粒度属性,提升开放词汇目标检测性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 细粒度属性 显式线性组合 大型语言模型 多模态学习

📋 核心要点

  1. 现有开放词汇目标检测模型侧重粗粒度类别,忽略细粒度属性,导致无法识别特定属性物体。
  2. 利用预训练模型中属性词的潜在特征空间,通过显式线性组合高亮细粒度属性。
  3. 在FG-OVD数据集上,该方法一致提升了多种主流模型的细粒度属性检测性能,达到SOTA。

📝 摘要(中文)

本文提出了一种通用的显式方法HA-FGOVD,用于提升冻结的主流开放词汇目标检测(OVD)模型在属性级别的检测能力。主流OVD模型通常更关注物体的粗粒度类别,而忽略了细粒度属性,例如颜色或材料,导致无法识别具有特定属性的物体。本文利用大型图像-文本对预训练的OVD模型中蕴含的丰富属性词信息,通过显式线性空间中高亮细粒度属性来解决这一问题。首先,利用大型语言模型(LLM)以零样本提示的方式高亮输入文本中的属性词。然后,通过策略性地调整token masks,OVD模型的文本编码器提取全局文本特征和属性特定特征,并在线性空间中显式地将它们组合成新的属性高亮特征用于检测任务,其中相应的标量被手工设计或学习以重新加权这两个向量。这些标量可以在不同的OVD模型之间无缝迁移,证明了这种显式线性组合的通用性。在FG-OVD数据集上的实验结果表明,该方法能够一致地提高各种主流模型的细粒度属性级别的OVD性能,并取得了新的state-of-the-art性能。

🔬 方法详解

问题定义:开放词汇目标检测(OVD)模型在识别具有特定属性的物体时表现不佳。现有OVD模型主要关注物体的粗粒度类别,例如“汽车”或“椅子”,而忽略了细粒度属性,例如“红色”、“木制”等。这导致模型无法准确识别描述为“红色汽车”或“木制椅子”的物体。现有方法没有充分利用预训练数据中蕴含的丰富属性信息,导致模型在属性级别的检测能力不足。

核心思路:本文的核心思路是通过显式地高亮文本描述中的细粒度属性,从而引导OVD模型关注这些属性,提升其属性级别的检测能力。具体来说,该方法首先识别输入文本中的属性词,然后利用这些属性词的信息来调整文本特征的表示,使得模型更加关注这些属性。通过显式线性组合全局文本特征和属性特定特征,模型能够更好地捕捉物体及其属性之间的关系。

技术框架:HA-FGOVD方法的整体框架包括以下几个主要模块:1) 属性词高亮模块:利用大型语言模型(LLM)以零样本提示的方式识别输入文本中的属性词。2) 特征提取模块:通过策略性地调整token masks,OVD模型的文本编码器提取全局文本特征和属性特定特征。3) 特征组合模块:在线性空间中显式地将全局文本特征和属性特定特征组合成新的属性高亮特征。4) 检测模块:利用属性高亮特征进行目标检测。

关键创新:该方法最重要的技术创新点在于提出了显式线性组合的方式来高亮细粒度属性。与现有方法相比,该方法能够更加直接和有效地利用属性信息,从而提升模型的属性级别的检测能力。此外,该方法提出的标量可以在不同的OVD模型之间无缝迁移,证明了这种显式线性组合的通用性。

关键设计:在属性词高亮模块中,使用了LLM进行零样本提示,无需额外的训练数据。在特征提取模块中,通过调整token masks来控制文本编码器提取不同类型的特征。在特征组合模块中,使用了手工设计或学习的标量来重新加权全局文本特征和属性特定特征。这些标量是关键的设计,它们控制了属性信息在最终特征表示中的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HA-FGOVD在FG-OVD数据集上取得了显著的性能提升,相较于现有方法,在细粒度属性级别的目标检测上取得了新的state-of-the-art性能。实验结果表明,该方法能够一致地提高各种主流模型的性能,并且提出的标量可以在不同的OVD模型之间无缝迁移,证明了该方法的通用性。

🎯 应用场景

该研究成果可广泛应用于智能零售、自动驾驶、图像搜索等领域。例如,在智能零售中,可以帮助识别商品的颜色、材质等属性,提升购物体验。在自动驾驶中,可以帮助识别交通标志的颜色、形状等属性,提高驾驶安全性。在图像搜索中,可以根据用户指定的属性进行精确搜索。

📄 摘要(原文)

Open-vocabulary object detection (OVD) models are considered to be Large Multi-modal Models (LMM), due to their extensive training data and a large number of parameters. Mainstream OVD models prioritize object coarse-grained category rather than focus on their fine-grained attributes, e.g., colors or materials, thus failed to identify objects specified with certain attributes. However, OVD models are pretrained on large-scale image-text pairs with rich attribute words, whose latent feature space can represent the global text feature as a linear composition of fine-grained attribute tokens without highlighting them. Therefore, we propose in this paper a universal and explicit approach for frozen mainstream OVD models that boosts their attribute-level detection capabilities by highlighting fine-grained attributes in explicit linear space. Firstly, a LLM is leveraged to highlight attribute words within the input text as a zero-shot prompted task. Secondly, by strategically adjusting the token masks, the text encoders of OVD models extract both global text and attribute-specific features, which are then explicitly composited as two vectors in linear space to form the new attribute-highlighted feature for detection tasks, where corresponding scalars are hand-crafted or learned to reweight both two vectors. Notably, these scalars can be seamlessly transferred among different OVD models, which proves that such an explicit linear composition is universal. Empirical evaluation on the FG-OVD dataset demonstrates that our proposed method uniformly improves fine-grained attribute-level OVD of various mainstream models and achieves new state-of-the-art performance.