GraphMamba: An Efficient Graph Structure Learning Vision Mamba for Hyperspectral Image Classification

📄 arXiv: 2407.08255v1 📥 PDF

作者: Aitao Yang, Min Li, Yao Ding, Leyuan Fang, Yaoming Cai, Yujie He

分类: cs.CV, cs.LG

发布日期: 2024-07-11

备注: 13 pages, 10 figures


💡 一句话要点

提出GraphMamba,用于高效学习高光谱图像分类中的图结构和时序特征。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 高光谱图像分类 图结构学习 视觉Mamba 空谱信息挖掘 自适应空间上下文感知

📋 核心要点

  1. 现有高光谱图像分类方法在捕捉光谱序列特征时计算效率较低,且卷积神经网络缺乏感知空间上下文信息的灵活性。
  2. GraphMamba通过HyperMamba模块提升计算效率,并利用SpectralGCN模块实现自适应空间上下文感知,从而有效挖掘空谱信息。
  3. 在多个真实高光谱数据集上的实验表明,GraphMamba相较于现有方法取得了更优的分类性能。

📝 摘要(中文)

本文提出了一种名为GraphMamba的高效图结构学习视觉Mamba分类框架,旨在充分考虑高光谱图像(HSI)的特性,实现深度空谱信息挖掘。该框架通过构建空谱立方体并利用线性光谱编码来保留空谱特征,从而提出了高光谱视觉GraphMamba处理范式(HVGM)。GraphMamba的核心组件包括用于提高计算效率的HyperMamba模块和用于自适应空间上下文感知的SpectralGCN模块。HyperMamba通过采用全局掩码(GM)来减轻杂波干扰,并引入并行训练推理架构以缓解计算瓶颈。SpatialGCN结合了加权多跳聚合(WMA)空间编码,以关注高度相关的空间结构特征,从而灵活地聚合上下文信息,同时减轻空间噪声干扰。在三个不同规模的真实HSI数据集上进行了大量实验,结果表明,与最先进的分类框架相比,GraphMamba取得了最佳性能。

🔬 方法详解

问题定义:高光谱图像分类旨在利用丰富的光谱信息和空间信息对地物进行精确分类。现有方法,如基于RNN和Transformer的光谱特征提取框架,计算效率较低。而CNN虽然能增强感受野,但缺乏感知空间上下文信息的灵活性,难以有效利用高光谱图像的空间结构信息。

核心思路:GraphMamba的核心思路是结合Mamba架构的高效序列建模能力和图卷积网络(GCN)的空间关系建模能力,设计一种能够同时高效地提取光谱序列特征和自适应地感知空间上下文信息的分类框架。通过构建空谱立方体,并利用线性光谱编码,保留了原始数据的空谱信息。

技术框架:GraphMamba的整体架构包含以下几个主要模块:1) 高光谱视觉GraphMamba处理范式(HVGM):构建空谱立方体,并进行线性光谱编码。2) HyperMamba模块:利用全局掩码(GM)减轻杂波干扰,并采用并行训练推理架构加速计算。3) SpectralGCN模块:通过加权多跳聚合(WMA)空间编码,自适应地聚合空间上下文信息。整个流程首先通过HVGM进行数据预处理,然后利用HyperMamba提取光谱特征,最后通过SpectralGCN进行空间信息聚合,最终完成分类。

关键创新:GraphMamba的关键创新在于:1) 提出了HyperMamba模块,通过全局掩码和并行架构,显著提高了计算效率。2) 提出了SpectralGCN模块,通过加权多跳聚合,实现了自适应的空间上下文感知,有效减轻了空间噪声的干扰。3) 结合了Mamba和GCN的优势,实现了高效且灵活的空谱信息挖掘。

关键设计:HyperMamba模块中,全局掩码(GM)的具体实现方式未知,但其目的是减轻杂波干扰。并行训练推理架构的具体实现方式也未知,但其目的是缓解计算瓶颈。SpectralGCN模块中,加权多跳聚合(WMA)的具体权重计算方式未知,但其目的是关注高度相关的空间结构特征。损失函数和网络结构等其他技术细节在论文中没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GraphMamba在三个不同规模的真实高光谱数据集上进行了实验,并与当前最先进的分类框架进行了比较。实验结果表明,GraphMamba取得了最佳的分类性能,证明了其在空谱信息挖掘方面的有效性。具体的性能数据和提升幅度在摘要中未给出,需要在论文正文中查找。

🎯 应用场景

GraphMamba在高光谱图像分类领域具有广泛的应用前景,例如精准农业、环境监测、地质勘探和城市规划等。通过高效准确地分析高光谱图像,可以为这些领域提供更可靠的数据支持,从而提高决策效率和资源利用率。未来,该方法有望应用于遥感图像处理、目标检测和场景理解等更广泛的领域。

📄 摘要(原文)

Efficient extraction of spectral sequences and geospatial information has always been a hot topic in hyperspectral image classification. In terms of spectral sequence feature capture, RNN and Transformer have become mainstream classification frameworks due to their long-range feature capture capabilities. In terms of spatial information aggregation, CNN enhances the receptive field to retain integrated spatial information as much as possible. However, the spectral feature-capturing architectures exhibit low computational efficiency, and CNNs lack the flexibility to perceive spatial contextual information. To address these issues, this paper proposes GraphMamba--an efficient graph structure learning vision Mamba classification framework that fully considers HSI characteristics to achieve deep spatial-spectral information mining. Specifically, we propose a novel hyperspectral visual GraphMamba processing paradigm (HVGM) that preserves spatial-spectral features by constructing spatial-spectral cubes and utilizes linear spectral encoding to enhance the operability of subsequent tasks. The core components of GraphMamba include the HyperMamba module for improving computational efficiency and the SpectralGCN module for adaptive spatial context awareness. The HyperMamba mitigates clutter interference by employing the global mask (GM) and introduces a parallel training inference architecture to alleviate computational bottlenecks. The SpatialGCN incorporates weighted multi-hop aggregation (WMA) spatial encoding to focus on highly correlated spatial structural features, thus flexibly aggregating contextual information while mitigating spatial noise interference. Extensive experiments were conducted on three different scales of real HSI datasets, and compared with the state-of-the-art classification frameworks, GraphMamba achieved optimal performance.