Multi-head Spatial-Spectral Mamba for Hyperspectral Image Classification

📄 arXiv: 2408.01224v3 📥 PDF

作者: Muhammad Ahmad, Muhammad Hassaan Farooq Butt, Muhammad Usama, Hamad Ahmed Altuwaijri, Manuel Mazzara, Salvatore Distefano

分类: cs.CV

发布日期: 2024-08-02 (更新: 2024-08-26)

DOI: 10.1080/2150704X.2025.2461330

🔗 代码/项目: GITHUB


💡 一句话要点

提出多头空谱Mamba模型(MHSSMamba)用于高光谱图像分类,提升精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 高光谱图像分类 Mamba模型 多头自注意力 空谱特征融合 长程依赖建模

📋 核心要点

  1. 传统Mamba模型在高光谱图像分类中忽略了丰富的光谱信息,难以处理高维度和序列数据。
  2. MHSSMamba通过增强光谱token和多头注意力机制,整合光谱和空间信息,管理长程依赖关系。
  3. 实验结果表明,MHSSMamba在多个高光谱数据集上取得了显著的分类精度提升,验证了其有效性。

📝 摘要(中文)

本文提出了一种多头空谱Mamba模型(MHSSMamba),旨在提高高光谱图像(HSI)分类的计算效率和捕获长程依赖关系,以克服Transformer的局限性。传统的Mamba模型忽略了HSI中丰富的光谱信息,并且难以处理高维度和序列数据。MHSSMamba通过增强光谱token并使用多头注意力机制来捕获光谱带和空间位置之间的复杂关系,从而整合光谱和空间信息。该模型还管理长程依赖关系和HSI数据的序列特性,保留跨光谱带的上下文信息。在Pavia University、University of Houston、Salinas和Wuhan-longKou数据集上,MHSSMamba分别取得了97.62%、96.92%、96.85%和99.49%的显著分类精度。源代码可在GitHub上获取。

🔬 方法详解

问题定义:高光谱图像分类旨在根据每个像素的光谱特征将其划分为不同的类别。现有方法,如传统的Mamba模型,在高光谱图像处理中存在不足,主要体现在无法有效利用高光谱图像中丰富的光谱信息,难以处理高维度数据,并且忽略了数据固有的序列特性,从而影响分类精度。

核心思路:MHSSMamba的核心思路是同时利用高光谱图像的空间和光谱信息,通过增强光谱token来突出光谱特征,并使用多头自注意力机制来捕获不同光谱带和空间位置之间的复杂关系。这种设计旨在克服传统Mamba模型在高光谱图像处理中的局限性,提升分类性能。

技术框架:MHSSMamba模型主要包含以下几个关键模块:1) 光谱Token增强模块:用于突出高光谱图像的光谱特征。2) 多头自注意力模块:用于捕获不同光谱带和空间位置之间的复杂关系。3) Mamba模块:用于处理序列数据和捕获长程依赖关系。整体流程是首先通过光谱Token增强模块处理输入的高光谱图像,然后将增强后的特征输入到多头自注意力模块中,最后通过Mamba模块进行序列建模和分类。

关键创新:MHSSMamba的关键创新在于将多头自注意力机制与Mamba架构相结合,并针对高光谱图像的特点进行了优化。与传统的Mamba模型相比,MHSSMamba能够更好地利用高光谱图像的空间和光谱信息,从而提升分类精度。与Transformer相比,Mamba具有更高的计算效率和更好的长程依赖建模能力。

关键设计:MHSSMamba的关键设计包括:1) 多头自注意力头的数量:需要根据数据集的复杂程度进行调整,以平衡计算复杂度和性能。2) 光谱Token增强模块的具体实现:可以使用不同的方法来增强光谱特征,例如使用卷积神经网络或注意力机制。3) Mamba模块的参数设置:需要根据序列长度和模型复杂度进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MHSSMamba在四个公开高光谱数据集上取得了显著的分类精度提升。在Pavia University数据集上达到了97.62%的精度,在University of Houston数据集上达到了96.92%的精度,在Salinas数据集上达到了96.85%的精度,在Wuhan-longKou数据集上更是达到了99.49%的精度。这些结果表明,MHSSMamba在处理高光谱图像分类问题上具有优越的性能。

🎯 应用场景

该研究成果可应用于遥感图像分析、精准农业、环境监测、地质勘探等领域。通过提高高光谱图像分类的精度,可以更准确地识别地物类型,为相关领域的决策提供更可靠的依据。未来,该模型可以进一步扩展到其他类型的遥感数据处理任务中,例如目标检测和图像分割。

📄 摘要(原文)

Spatial-Spectral Mamba (SSM) improves computational efficiency and captures long-range dependencies, addressing Transformer limitations. However, traditional Mamba models overlook rich spectral information in HSIs and struggle with high dimensionality and sequential data. To address these issues, we propose the SSM with multi-head self-attention and token enhancement (MHSSMamba). This model integrates spectral and spatial information by enhancing spectral tokens and using multi-head attention to capture complex relationships between spectral bands and spatial locations. It also manages long-range dependencies and the sequential nature of HSI data, preserving contextual information across spectral bands. MHSSMamba achieved remarkable classification accuracies of 97.62\% on Pavia University, 96.92\% on the University of Houston, 96.85\% on Salinas, and 99.49\% on Wuhan-longKou datasets. The source code is available at \href{https://github.com/MHassaanButt/MHA_SS_Mamba}{GitHub}.