Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
作者: Weilian Zhou, Sei-Ichiro Kamata, Haipeng Wang, Man-Sing Wong, Huiying, Hou
分类: cs.CV
发布日期: 2024-05-20 (更新: 2024-07-13)
💡 一句话要点
提出Mamba-in-Mamba模型,用于高光谱图像分类,提升特征聚合和效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 高光谱图像分类 状态空间模型 Mamba架构 遥感图像处理 深度学习 特征提取 序列建模
📋 核心要点
- 现有RNN方法难以聚合中心特征且易受干扰像素影响,Transformer计算成本高且在小样本HSI数据上表现不佳,传统扫描方法效率低下。
- 提出Mamba-in-Mamba (MiM) 架构,利用状态空间模型(SSM)进行高光谱图像分类,并设计中心化Mamba-Cross-Scan机制。
- 实验结果表明,MiM模型在三个公共HSI数据集上优于现有基线和最先进方法,验证了其有效性和潜力。
📝 摘要(中文)
高光谱图像(HSI)分类在遥感(RS)领域至关重要,尤其是在深度学习技术进步的背景下。借鉴自自然语言处理(NLP)领域的序列模型,如循环神经网络(RNN)和Transformer,已被应用于此任务,提供了独特的视角。然而,仍然存在若干挑战:1)RNN在中心特征聚合方面存在困难,并且对干扰像素敏感;2)Transformer需要大量的计算资源,并且在有限的HSI训练样本下通常表现不佳;3)当前将图像转换为序列数据的扫描方法过于简单和低效。为了解决这些问题,本研究引入了创新的Mamba-in-Mamba(MiM)架构用于HSI分类,这是首次尝试在该任务中部署状态空间模型(SSM)。MiM模型包括:1)一种新颖的中心化Mamba-Cross-Scan(MCS)机制,用于将图像转换为序列数据;2)一个Tokenized Mamba(T-Mamba)编码器,它结合了高斯衰减掩码(GDM)、语义Token学习器(STL)和语义Token融合器(STF),以增强特征生成和集中;3)一个加权MCS融合(WMF)模块,结合多尺度损失设计,以提高解码效率。在三个公共HSI数据集上进行的固定和不相交的训练-测试样本的实验结果表明,我们的方法优于现有的基线和最先进的方法,突出了其在HSI应用中的有效性和潜力。
🔬 方法详解
问题定义:高光谱图像分类旨在根据图像中每个像素的光谱特征将其划分到不同的类别。现有方法,如RNN和Transformer,在高光谱图像分类中存在局限性。RNN难以有效聚合中心特征,并且容易受到噪声像素的干扰。Transformer模型计算复杂度高,需要大量的训练数据,在高光谱图像数据集中,由于数据获取成本高昂,训练样本通常有限,导致Transformer模型性能不佳。此外,现有的图像到序列数据的转换方法过于简单,无法充分利用高光谱图像的空间信息。
核心思路:论文的核心思路是利用状态空间模型(SSM)的Mamba架构,结合创新的扫描机制和特征增强模块,来克服现有方法的局限性。Mamba架构具有线性复杂度,可以处理长序列数据,并且能够自适应地选择性地关注输入信息。通过设计中心化的扫描方式,可以更好地聚合图像的中心特征。通过引入Tokenized Mamba编码器,可以增强特征的表达能力,提高分类精度。
技术框架:MiM模型的整体架构包括三个主要模块:中心化Mamba-Cross-Scan(MCS)机制、Tokenized Mamba(T-Mamba)编码器和加权MCS融合(WMF)模块。首先,MCS机制将高光谱图像转换为序列数据。然后,T-Mamba编码器利用高斯衰减掩码(GDM)、语义Token学习器(STL)和语义Token融合器(STF)来提取和增强特征。最后,WMF模块结合多尺度损失设计,对不同尺度的特征进行融合,并进行分类。
关键创新:论文的关键创新点在于以下几个方面:1)首次将Mamba架构应用于高光谱图像分类任务;2)提出了中心化的Mamba-Cross-Scan(MCS)机制,能够更有效地聚合图像的中心特征;3)设计了Tokenized Mamba(T-Mamba)编码器,通过引入高斯衰减掩码(GDM)、语义Token学习器(STL)和语义Token融合器(STF),增强了特征的表达能力。与现有方法相比,MiM模型在计算效率和分类精度方面都具有优势。
关键设计:在MCS机制中,采用了中心化的扫描方式,使得模型能够更加关注图像的中心区域。在T-Mamba编码器中,GDM用于抑制噪声像素的干扰,STL用于学习具有代表性的语义Token,STF用于融合不同Token的信息。WMF模块采用加权融合的方式,根据不同尺度的特征的重要性进行加权。损失函数采用多尺度损失设计,综合考虑了不同尺度的分类结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MiM模型在三个公共HSI数据集上取得了显著的性能提升。例如,在Indian Pines数据集上,MiM模型相比于现有最优方法,总体精度(OA)提高了超过2个百分点。在Pavia University和Salinas数据集上,MiM模型也取得了类似的性能提升,验证了其有效性和泛化能力。
🎯 应用场景
该研究成果可广泛应用于遥感领域,例如精准农业、环境监测、地质勘探和城市规划等。通过高光谱图像分类,可以识别农作物类型、监测植被健康状况、评估土地利用情况、检测水体污染等。该研究的未来影响在于提高遥感图像分析的自动化程度和精度,为决策提供更可靠的依据。
📄 摘要(原文)
Hyperspectral image (HSI) classification is pivotal in the remote sensing (RS) field, particularly with the advancement of deep learning techniques. Sequential models, adapted from the natural language processing (NLP) field such as Recurrent Neural Networks (RNNs) and Transformers, have been tailored to this task, offering a unique viewpoint. However, several challenges persist 1) RNNs struggle with centric feature aggregation and are sensitive to interfering pixels, 2) Transformers require significant computational resources and often underperform with limited HSI training samples, and 3) Current scanning methods for converting images into sequence-data are simplistic and inefficient. In response, this study introduces the innovative Mamba-in-Mamba (MiM) architecture for HSI classification, the first attempt of deploying State Space Model (SSM) in this task. The MiM model includes 1) A novel centralized Mamba-Cross-Scan (MCS) mechanism for transforming images into sequence-data, 2) A Tokenized Mamba (T-Mamba) encoder that incorporates a Gaussian Decay Mask (GDM), a Semantic Token Learner (STL), and a Semantic Token Fuser (STF) for enhanced feature generation and concentration, and 3) A Weighted MCS Fusion (WMF) module coupled with a Multi-Scale Loss Design to improve decoding efficiency. Experimental results from three public HSI datasets with fixed and disjoint training-testing samples demonstrate that our method outperforms existing baselines and state-of-the-art approaches, highlighting its efficacy and potential in HSI applications.