MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture
作者: Guandong Li, Mengxia Ye
分类: cs.CV
发布日期: 2025-07-06
备注: arXiv admin note: substantial text overlap with arXiv:2506.08324, arXiv:2504.15155, arXiv:2504.13045, arXiv:2503.23472
💡 一句话要点
提出MVNet,融合Mamba和Transformer,提升高光谱遥感图像分类精度与效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 高光谱图像分类 Mamba Transformer 遥感图像处理 深度学习
📋 核心要点
- 高光谱图像分类面临高维数据、小样本和光谱冗余等问题,导致过拟合和泛化能力不足。
- MVNet融合3D-CNN、Transformer和Mamba的优势,通过双分支Mamba模块和优化的Mixer模块,实现高效特征提取。
- 实验结果表明,MVNet在多个数据集上超越主流方法,提升了分类精度和计算效率,具有良好的鲁棒性。
📝 摘要(中文)
针对高光谱图像(HSI)分类中存在的高维数据、有限训练样本和光谱冗余等挑战,本文提出了一种新的MVNet网络架构。该架构集成了3D-CNN的局部特征提取能力、Transformer的全局建模能力以及Mamba的线性复杂度序列建模能力,实现了高效的空间-光谱特征提取和融合。MVNet采用重新设计的双分支Mamba模块,包括一个状态空间模型(SSM)分支和一个采用1D卷积与SiLU激活的非SSM分支,增强了对短程和长程依赖关系的建模,同时降低了传统Mamba的计算延迟。优化的HSI-MambaVision Mixer模块克服了因果卷积的单向性限制,通过解耦注意力捕获单次前向传播中的双向空间-光谱依赖关系,关注高价值特征,缓解了参数冗余和维度灾难。在IN、UP和KSC数据集上,MVNet在分类精度和计算效率方面均优于主流高光谱图像分类方法,展示了处理复杂HSI数据的强大能力。
🔬 方法详解
问题定义:高光谱图像分类任务面临的挑战包括:高维数据带来的计算负担和维度灾难;有限的训练样本容易导致模型过拟合;以及光谱信息冗余,影响特征提取的有效性。现有方法难以兼顾局部特征提取、全局关系建模和计算效率,限制了分类精度和泛化能力。
核心思路:MVNet的核心思路是结合3D-CNN、Transformer和Mamba各自的优势,构建一个混合架构,实现高效的空间-光谱特征提取和融合。3D-CNN负责提取局部特征,Transformer负责建模全局关系,Mamba负责线性复杂度的序列建模,从而在精度、效率和泛化能力之间取得平衡。
技术框架:MVNet的整体架构包含以下主要模块:1) 3D卷积层:用于提取高光谱图像的局部空间-光谱特征。2) 双分支Mamba模块:包含一个基于状态空间模型(SSM)的分支和一个基于1D卷积的非SSM分支,用于建模长程和短程依赖关系。3) HSI-MambaVision Mixer模块:通过解耦注意力机制,捕获双向空间-光谱依赖关系。4) 分类器:将提取的特征映射到不同的类别。
关键创新:MVNet的关键创新点在于:1) 提出了双分支Mamba模块,增强了对不同尺度依赖关系的建模能力,并降低了计算延迟。2) 设计了HSI-MambaVision Mixer模块,通过解耦注意力机制,克服了传统因果卷积的单向性限制,实现了双向空间-光谱依赖关系的建模。3) 整体架构融合了3D-CNN、Transformer和Mamba的优势,实现了高效的特征提取和融合。
关键设计:双分支Mamba模块中,SSM分支采用标准的Mamba架构,非SSM分支采用1D卷积和SiLU激活函数。HSI-MambaVision Mixer模块中,解耦注意力机制将空间和光谱维度上的注意力计算分离,减少了参数冗余。损失函数采用交叉熵损失函数,优化器采用AdamW优化器。具体的参数设置(如卷积核大小、通道数、注意力头数等)需要根据具体数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MVNet在IN、UP和KSC三个公开高光谱数据集上均取得了优于主流方法的分类精度。例如,在IN数据集上,MVNet的总体精度(OA)达到了99.3%,相比于其他方法有显著提升。同时,MVNet在计算效率方面也表现出色,相比于基于Transformer的方法,具有更低的计算复杂度。
🎯 应用场景
MVNet在高光谱遥感图像分类领域具有广泛的应用前景,可用于地物分类、农作物监测、环境监测、灾害评估等地学分析任务。该研究成果有助于提升遥感图像解译的自动化和智能化水平,为相关领域的决策提供更准确、更高效的技术支持,具有重要的实际应用价值和潜在的社会经济效益。
📄 摘要(原文)
Hyperspectral image (HSI) classification faces challenges such as high-dimensional data, limited training samples, and spectral redundancy, which often lead to overfitting and insufficient generalization capability. This paper proposes a novel MVNet network architecture that integrates 3D-CNN's local feature extraction, Transformer's global modeling, and Mamba's linear complexity sequence modeling capabilities, achieving efficient spatial-spectral feature extraction and fusion. MVNet features a redesigned dual-branch Mamba module, including a State Space Model (SSM) branch and a non-SSM branch employing 1D convolution with SiLU activation, enhancing modeling of both short-range and long-range dependencies while reducing computational latency in traditional Mamba. The optimized HSI-MambaVision Mixer module overcomes the unidirectional limitation of causal convolution, capturing bidirectional spatial-spectral dependencies in a single forward pass through decoupled attention that focuses on high-value features, alleviating parameter redundancy and the curse of dimensionality. On IN, UP, and KSC datasets, MVNet outperforms mainstream hyperspectral image classification methods in both classification accuracy and computational efficiency, demonstrating robust capability in processing complex HSI data.