Dual Relation Mining Network for Zero-Shot Learning

📄 arXiv: 2405.03613v1 📥 PDF

作者: Jinwei Han, Yingguo Gao, Zhiwen Lin, Ke Yan, Shouhong Ding, Yuan Gao, Gui-Song Xia

分类: cs.CV

发布日期: 2024-05-06


💡 一句话要点

提出双重关系挖掘网络DRMN,解决零样本学习中视觉语义关系建模不足的问题。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 零样本学习 视觉语义关系 属性学习 注意力机制 Transformer 知识迁移

📋 核心要点

  1. 现有零样本学习方法在视觉-语义关系建模上存在不足,尤其是在属性间语义关系和区分相似注意力区域方面。
  2. DRMN通过双重注意力块DAB挖掘视觉-语义关系,并利用语义交互Transformer SIT建模属性间的语义关系,增强泛化能力。
  3. 实验结果表明,DRMN在CUB、SUN和AwA2等标准数据集上取得了state-of-the-art的性能,验证了方法的有效性。

📝 摘要(中文)

本文提出了一种双重关系挖掘网络(DRMN)用于零样本学习(ZSL),旨在通过更有效的视觉-语义交互和学习属性之间的语义关系来进行知识迁移,从而识别新类别。现有的基于注意力的方法主要在空间维度上探索视觉和语义关系,当不同属性共享相似的注意力区域时,会导致分类模糊,并且很少讨论属性之间的语义关系。为了解决这些问题,DRMN引入了双重注意力块(DAB)用于视觉-语义关系挖掘,通过多层次特征融合丰富视觉信息,并进行空间注意力以实现视觉到语义的嵌入。此外,利用属性引导的通道注意力来解耦纠缠的语义特征。对于语义关系建模,使用语义交互Transformer(SIT)来增强图像间属性表示的泛化能力。此外,引入全局分类分支作为人工定义的语义属性的补充,并将其结果与基于属性的分类相结合。在CUB、SUN和AwA2三个标准ZSL基准数据集上的大量实验表明,所提出的DRMN达到了新的state-of-the-art性能。

🔬 方法详解

问题定义:零样本学习旨在利用已见类别的语义知识(例如属性)来识别未见类别。现有基于注意力的方法主要关注视觉特征和属性在空间维度上的对齐,忽略了属性间的语义关系,并且当不同属性具有相似的注意力区域时,容易导致分类混淆。因此,如何更有效地建模视觉-语义关系以及属性间的语义关系是本文要解决的核心问题。

核心思路:本文的核心思路是通过双重关系挖掘,即同时挖掘视觉-语义关系和属性-属性关系,从而更全面地利用语义知识进行知识迁移。通过设计双重注意力块(DAB)来增强视觉-语义交互,并利用语义交互Transformer(SIT)来建模属性间的语义关系,从而提高模型的泛化能力。

技术框架:DRMN的整体框架包括以下几个主要模块:1) 特征提取模块:用于提取图像的视觉特征。2) 双重注意力块(DAB):用于挖掘视觉-语义关系,包含空间注意力和通道注意力。3) 语义交互Transformer(SIT):用于建模属性间的语义关系。4) 全局分类分支:作为人工定义的语义属性的补充。5) 分类器:结合属性分类和全局分类的结果进行最终的类别预测。

关键创新:DRMN的关键创新在于:1) 提出了双重注意力块(DAB),能够同时进行空间注意力和通道注意力,从而更有效地挖掘视觉-语义关系。2) 引入了语义交互Transformer(SIT),能够建模属性间的语义关系,从而增强模型的泛化能力。3) 结合了属性分类和全局分类的结果,从而更全面地利用语义知识。

关键设计:DAB包含多层特征融合,以丰富视觉信息,并使用空间注意力机制将视觉特征嵌入到语义空间中。属性引导的通道注意力用于解耦纠缠的语义特征。SIT使用Transformer结构来建模属性间的关系,并采用自注意力机制来学习属性间的依赖关系。全局分类分支使用一个简单的全连接网络进行类别预测。损失函数包括属性分类损失和全局分类损失,共同优化模型。

📊 实验亮点

DRMN在CUB、SUN和AwA2三个标准ZSL基准数据集上取得了显著的性能提升,达到了新的state-of-the-art水平。例如,在CUB数据集上,DRMN的性能超过了现有最佳方法多个百分点,验证了其在零样本学习任务中的有效性。

🎯 应用场景

该研究成果可应用于图像识别、目标检测等领域,尤其是在缺乏标注数据的场景下,例如新物种识别、罕见疾病诊断等。通过知识迁移,可以有效提升模型在新类别上的识别能力,降低对大量标注数据的依赖,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Zero-shot learning (ZSL) aims to recognize novel classes through transferring shared semantic knowledge (e.g., attributes) from seen classes to unseen classes. Recently, attention-based methods have exhibited significant progress which align visual features and attributes via a spatial attention mechanism. However, these methods only explore visual-semantic relationship in the spatial dimension, which can lead to classification ambiguity when different attributes share similar attention regions, and semantic relationship between attributes is rarely discussed. To alleviate the above problems, we propose a Dual Relation Mining Network (DRMN) to enable more effective visual-semantic interactions and learn semantic relationship among attributes for knowledge transfer. Specifically, we introduce a Dual Attention Block (DAB) for visual-semantic relationship mining, which enriches visual information by multi-level feature fusion and conducts spatial attention for visual to semantic embedding. Moreover, an attribute-guided channel attention is utilized to decouple entangled semantic features. For semantic relationship modeling, we utilize a Semantic Interaction Transformer (SIT) to enhance the generalization of attribute representations among images. Additionally, a global classification branch is introduced as a complement to human-defined semantic attributes, and we then combine the results with attribute-based classification. Extensive experiments demonstrate that the proposed DRMN leads to new state-of-the-art performances on three standard ZSL benchmarks, i.e., CUB, SUN, and AwA2.