ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning

📄 arXiv: 2408.14868v1 📥 PDF

作者: Wenjin Hou, Dingjie Fu, Kun Li, Shiming Chen, Hehe Fan, Yi Yang

分类: cs.CV

发布日期: 2024-08-27


💡 一句话要点

提出ZeroMamba,利用视觉状态空间模型提升零样本学习性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 零样本学习 视觉状态空间模型 Vision Mamba 语义融合 长程依赖

📋 核心要点

  1. 现有零样本学习方法依赖CNN或ViT提取视觉特征,但CNN感受野有限,ViT计算复杂度高,限制了视觉-语义交互效果。
  2. ZeroMamba利用Vision Mamba捕获长程依赖和建模视觉动态,通过语义感知局部投影、全局表示学习和语义融合增强语义特征。
  3. 在四个ZSL基准测试中,ZeroMamba显著优于现有CNN和ViT方法,在CZSL和GZSL设置下均表现出卓越性能。

📝 摘要(中文)

零样本学习(ZSL)旨在通过语义信息的引导,将已见类别的语义知识迁移到未见类别,从而识别未见类别。现有工作利用卷积神经网络(CNN)或视觉Transformer(ViT)的全局视觉特征进行视觉-语义交互,取得了显著的性能。然而,由于CNN感受野的限制和ViT的二次复杂度,这些视觉骨干网络在视觉-语义交互方面表现次优。本文受视觉状态空间模型(即Vision Mamba)的启发,该模型能够捕获长程依赖关系并建模复杂的视觉动态,我们提出了一个参数高效的ZSL框架,称为ZeroMamba,以推进ZSL。我们的ZeroMamba包含三个关键组件:语义感知局部投影(SLP)、全局表示学习(GRL)和语义融合(SeF)。具体而言,SLP集成语义嵌入以将视觉特征映射到局部语义相关的表示,而GRL鼓励模型学习全局语义表示。SeF结合这两种语义表示,以增强语义特征的可区分性。我们将这些设计融入Vision Mamba,形成一个端到端的ZSL框架。因此,学习到的语义表示更适合分类。通过在四个著名的ZSL基准上进行的大量实验,ZeroMamba展示了卓越的性能,在传统ZSL(CZSL)和广义ZSL(GZSL)设置下,显著优于最先进的(即基于CNN和基于ViT的)方法。

🔬 方法详解

问题定义:零样本学习旨在识别未见过的类别,关键在于如何有效地将已见类别的知识迁移到未见类别。现有方法依赖于CNN或ViT提取视觉特征,但CNN的感受野有限,难以捕捉全局信息,而ViT的计算复杂度随图像尺寸呈二次方增长,限制了其在大规模图像上的应用。因此,如何高效地提取全局视觉特征并进行有效的视觉-语义交互是零样本学习的关键挑战。

核心思路:ZeroMamba的核心思路是利用Vision Mamba强大的长程依赖建模能力和高效的计算特性,替代传统的CNN或ViT作为视觉骨干网络。通过将视觉特征映射到语义相关的表示,并结合全局和局部语义信息,增强语义特征的可区分性,从而提升零样本学习的性能。这种设计旨在克服CNN感受野有限和ViT计算复杂度高的缺点,实现更有效的视觉-语义交互。

技术框架:ZeroMamba框架包含三个主要模块:语义感知局部投影(SLP)、全局表示学习(GRL)和语义融合(SeF)。首先,SLP将视觉特征与语义嵌入相结合,生成局部语义相关的表示。然后,GRL鼓励模型学习全局语义表示,捕捉图像的整体语义信息。最后,SeF融合局部和全局语义表示,增强语义特征的判别能力。整个框架以端到端的方式进行训练,利用Vision Mamba作为视觉特征提取器。

关键创新:ZeroMamba的关键创新在于将Vision Mamba引入零样本学习领域,并设计了SLP、GRL和SeF三个模块,以充分利用Vision Mamba的优势。与现有方法相比,ZeroMamba能够更有效地捕获长程依赖关系,建模复杂的视觉动态,并实现更高效的视觉-语义交互。这使得ZeroMamba在零样本学习任务中能够取得更好的性能。

关键设计:SLP模块通过将视觉特征与语义嵌入进行线性投影和融合,生成局部语义相关的表示。GRL模块采用全局平均池化操作,提取图像的全局语义信息。SeF模块使用注意力机制,自适应地融合局部和全局语义表示。损失函数包括分类损失和对比学习损失,用于优化模型的分类性能和语义表示的区分性。Vision Mamba的具体参数设置遵循原始论文的建议,并根据具体任务进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ZeroMamba在四个主流零样本学习数据集上取得了显著的性能提升,超越了基于CNN和ViT的现有方法。具体而言,在CUB数据集上,ZeroMamba在GZSL设置下取得了超过5%的性能提升。实验结果表明,Vision Mamba作为视觉骨干网络,能够有效地提升零样本学习的性能。

🎯 应用场景

ZeroMamba在零样本图像识别领域具有广泛的应用前景,例如在缺乏标注数据的场景下识别新型物体、动物或场景。该技术还可以应用于机器人视觉、智能监控、自动驾驶等领域,提升系统对未知环境的适应能力。未来,ZeroMamba可以扩展到其他模态数据,例如文本、音频等,实现跨模态的零样本学习。

📄 摘要(原文)

Zero-shot learning (ZSL) aims to recognize unseen classes by transferring semantic knowledge from seen classes to unseen ones, guided by semantic information. To this end, existing works have demonstrated remarkable performance by utilizing global visual features from Convolutional Neural Networks (CNNs) or Vision Transformers (ViTs) for visual-semantic interactions. Due to the limited receptive fields of CNNs and the quadratic complexity of ViTs, however, these visual backbones achieve suboptimal visual-semantic interactions. In this paper, motivated by the visual state space model (i.e., Vision Mamba), which is capable of capturing long-range dependencies and modeling complex visual dynamics, we propose a parameter-efficient ZSL framework called ZeroMamba to advance ZSL. Our ZeroMamba comprises three key components: Semantic-aware Local Projection (SLP), Global Representation Learning (GRL), and Semantic Fusion (SeF). Specifically, SLP integrates semantic embeddings to map visual features to local semantic-related representations, while GRL encourages the model to learn global semantic representations. SeF combines these two semantic representations to enhance the discriminability of semantic features. We incorporate these designs into Vision Mamba, forming an end-to-end ZSL framework. As a result, the learned semantic representations are better suited for classification. Through extensive experiments on four prominent ZSL benchmarks, ZeroMamba demonstrates superior performance, significantly outperforming the state-of-the-art (i.e., CNN-based and ViT-based) methods under both conventional ZSL (CZSL) and generalized ZSL (GZSL) settings. Code is available at: https://anonymous.4open.science/r/ZeroMamba.