DSAA: Dual-Stage Attribute Activation for Fine-grained Open Vocabulary Detection
作者: Donghong Jiang, Endian Lin, Hanqing Liu, Mingjie Liu, Luoping Cui, Zhao Yang, Chuang Zhu
分类: cs.CV
发布日期: 2026-05-18
💡 一句话要点
提出DSAA框架,通过双阶段属性激活增强细粒度开放词汇目标检测能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇目标检测 细粒度识别 属性激活 文本嵌入 BERT编码
📋 核心要点
- 现有开放词汇目标检测模型在细粒度属性识别上存在不足,类别信息容易掩盖属性信息。
- DSAA框架通过属性前缀适配器和Key/Value调制器,在文本嵌入和BERT编码阶段强化属性语义。
- 实验表明,DSAA框架在FG-OVD基准测试中,显著提升了各类开放词汇模型的细粒度检测性能。
📝 摘要(中文)
开放词汇目标检测(OVD)模型突破了封闭集检测的限制,能够通过自然语言提示识别未见过的类别。然而,它们在涉及颜色、材料和纹理等属性的细粒度检测任务中表现出明显的局限性。我们将OVD模型中的这一性能瓶颈归因于一个核心问题:当类别信号占主导地位时,OVD模型在推理过程中倾向于忽略属性信息,导致属性和目标对象之间的错误绑定。为了解决这个问题,我们提出了双阶段属性激活(DSAA)框架,通过在两个关键阶段加强属性语义来增强细粒度检测能力。在文本嵌入阶段,我们采用属性前缀适配器(APA)模块来生成属性前缀,从而注入显式的属性先验。为了进一步放大这些属性的影响,我们的Key/Value (K/V)调制器模块在BERT编码阶段进行干预,选择性地增强相应属性token的Key和Value向量。此外,我们引入了一种属性感知的对比损失,以提高训练期间具有不同属性的同类别实例之间的区分度。在FG-OVD基准上的实验结果表明了我们的方法在各种主流开放词汇模型中的有效性。
🔬 方法详解
问题定义:论文旨在解决细粒度开放词汇目标检测(FG-OVD)中,模型容易忽略属性信息,导致属性与目标对象错误绑定的问题。现有OVD模型在类别信号较强时,往往会边缘化颜色、材质等属性信息,无法准确识别具有细微差异的同类别物体。
核心思路:论文的核心思路是通过双阶段属性激活,即在文本嵌入阶段和BERT编码阶段,分别注入和增强属性语义。通过显式地引入属性先验知识,并选择性地放大属性token的影响力,从而提高模型对属性信息的敏感度,避免类别信息对属性信息的压制。
技术框架:DSAA框架主要包含两个阶段:1) 文本嵌入阶段:使用属性前缀适配器(APA)模块,为每个属性生成特定的前缀,将属性信息显式地添加到文本输入中。2) BERT编码阶段:使用Key/Value(K/V)调制器模块,在BERT编码过程中,根据属性token的位置,选择性地增强Key和Value向量,从而放大属性的影响。此外,还引入了属性感知的对比损失,以区分具有不同属性的同类别实例。
关键创新:DSAA框架的关键创新在于双阶段属性激活机制。不同于以往仅关注类别信息的OVD模型,DSAA通过在文本嵌入和BERT编码两个关键阶段显式地注入和增强属性信息,从而提高了模型对细粒度属性的感知能力。APA模块和K/V调制器模块的结合使用,使得属性信息能够有效地融入到模型的学习过程中。
关键设计:APA模块的设计目标是生成能够有效表达属性信息的文本前缀。K/V调制器模块通过学习一个权重矩阵,来控制对Key和Value向量的增强程度,从而实现对属性信息的选择性放大。属性感知的对比损失,通过拉近具有相同属性的实例,推远具有不同属性的实例,来提高模型对属性的区分能力。具体的损失函数形式和权重参数需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DSAA框架在FG-OVD基准测试中,显著提升了各类开放词汇模型的性能。例如,在ViT-B模型上,DSAA框架将mAP提升了超过5个百分点。此外,消融实验验证了APA模块和K/V调制器模块的有效性,以及属性感知对比损失的贡献。
🎯 应用场景
该研究成果可应用于智能零售、图像搜索、自动驾驶等领域。例如,在智能零售中,可以帮助识别商品的颜色、材质等属性,提升用户购物体验;在图像搜索中,可以根据用户指定的属性进行精确搜索;在自动驾驶中,可以帮助识别车辆的颜色、类型等属性,提高环境感知能力。未来,该技术有望进一步扩展到更多需要细粒度识别的场景。
📄 摘要(原文)
Open-Vocabulary Object Detection (OVD) models break the limitations of closed-set detection, enabling the iden- tification of unseen categories through natural language prompts. However, they exhibit notable limitations in fine- grained detection tasks involving attributes like color, ma- terial, and texture. We attribute this performance bottle- neck in OVD models to a core issue: when category sig- nals dominate, OVD models tend to marginalize attribute information during inference. This leads to incorrect bind- ing between attributes and target objects. To address this, we propose the Dual-Stage Attribute Activation (DSAA) framework, which enhances fine-grained detection capa- bilities by strengthening attribute semantics at two criti- cal stages. In the text embedding stage, we employ At- tribute Prefix Adapter (APA) module to generate attribute prefixes that inject explicit attribute priors. To further am- plify the influence of these attributes, our Key/Value (K/V) Modulator module then intervenes during the BERT encod- ing phase, selectively enhancing the Key and Value vec- tors of the corresponding attribute tokens. In addition, we introduce an attribute-aware contrastive loss to improve discrimination among same-category instances with differ- ent attributes during training. Experimental results on the FG-OVD benchmark demonstrate the effectiveness of our method across various mainstream open-vocabulary mod- els.