A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification

📄 arXiv: 2504.16665v2 📥 PDF

作者: Wenping Ma, Boyou Xue, Mengru Ma, Chuang Chen, Hekai Zhang, Hao Zhu

分类: cs.CV

发布日期: 2025-04-23 (更新: 2026-01-13)

备注: After a careful review, we discovered that there were data errors in the paper, which led to the invalidity of the conclusion. To avoid misleading the readers, we have decided to withdraw this article. We appreciate your understanding and support for our work

🔗 代码/项目: GITHUB


💡 一句话要点

提出DAS2F-Model,通过差异注意力机制和状态空间模型融合多光谱与全色遥感影像,提升分类精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感影像分类 多模态融合 差异注意力机制 状态空间模型 特征融合

📋 核心要点

  1. 现有遥感影像融合方法未能有效分离多光谱和全色影像的共有信息与独特优势,导致特征冗余。
  2. DAS2F-Model通过跨模态差异注意力模块分离共有特征和主导特征,并利用注意力感知线性融合模块有效融合语义差异大的特征。
  3. 实验结果表明,DAS2F-Model在遥感影像分类任务中取得了优于其他方法的性能。

📝 摘要(中文)

本文提出了一种基于差异注意力感知状态空间融合模型(DAS2F-Model),用于多模态遥感影像分类。该模型旨在分离多光谱(MS)和全色(PAN)影像中的相似信息,并提取各自的优势特征,从而减少融合阶段的特征冗余。模型基于选择性状态空间模型,设计了一个跨模态差异注意力模块(CMDA-Module),用于提取和分离MS和PAN影像的共同特征和各自的主导特征。其中,空间保持视觉Mamba(SPVM)通过优化视觉Mamba的输入,保留图像空间特征并捕获局部特征。考虑到特征分离后融合阶段的特征语义差异较大,简单的融合操作难以有效整合这些差异显著的特征,因此提出了一个注意力感知线性融合模块(AALF-Module),通过计算影响系数执行像素级线性融合。该机制可以在保持特征大小不变的同时融合语义差异大的特征。实验结果表明,该方法优于其他方法。

🔬 方法详解

问题定义:遥感影像分类任务中,如何有效融合多光谱(MS)和全色(PAN)影像是一个关键问题。现有的融合方法通常无法很好地分离两种影像的共有信息和各自的优势信息,导致融合后的特征存在冗余,影响分类精度。此外,简单地将分离后的特征进行融合,难以有效整合语义差异较大的特征。

核心思路:本文的核心思路是通过差异注意力机制,将MS和PAN影像的共有特征和各自的主导特征进行分离,从而减少特征冗余。然后,利用注意力感知线性融合模块,根据特征的重要性自适应地融合分离后的特征,从而更好地整合语义差异较大的特征。

技术框架:DAS2F-Model主要包含以下几个模块:1) 跨模态差异注意力模块(CMDA-Module):用于提取和分离MS和PAN影像的共同特征和各自的主导特征。该模块基于选择性状态空间模型,并引入了空间保持视觉Mamba(SPVM)来保留图像空间特征并捕获局部特征。2) 注意力感知线性融合模块(AALF-Module):用于融合经过CMDA-Module处理后的特征。该模块通过计算影响系数执行像素级线性融合,从而自适应地融合语义差异较大的特征。3) 分类器:用于对融合后的特征进行分类。

关键创新:本文的关键创新在于以下两点:1) 提出了跨模态差异注意力模块(CMDA-Module),能够有效地分离MS和PAN影像的共有特征和各自的主导特征。2) 提出了注意力感知线性融合模块(AALF-Module),能够自适应地融合语义差异较大的特征,避免了简单融合带来的信息损失。与现有方法相比,DAS2F-Model能够更好地利用MS和PAN影像的信息,从而提高分类精度。

关键设计:1) 空间保持视觉Mamba(SPVM):通过优化视觉Mamba的输入,保留图像空间特征并捕获局部特征。具体优化方式未知。2) 注意力感知线性融合模块(AALF-Module):通过计算影响系数执行像素级线性融合,影响系数的计算方式未知。3) 损失函数:论文中使用的损失函数类型未知,具体参数设置未知。4) 网络结构:CMDA-Module和AALF-Module的具体网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的DAS2F-Model在遥感影像分类任务中取得了优于其他方法的性能。具体性能数据和对比基线未知,但摘要中明确指出“achieves better results than alternative approaches”。

🎯 应用场景

该研究成果可应用于多种遥感影像分类任务,例如土地覆盖分类、农作物识别、城市规划等。通过提高遥感影像分类的精度,可以为相关领域的决策提供更可靠的数据支持,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Multispectral (MS) and panchromatic (PAN) images describe the same land surface, so these images not only have their own advantages, but also have a lot of similar information. In order to separate these similar information and their respective advantages, reduce the feature redundancy in the fusion stage. This paper introduces a diff-attention aware state space fusion model (DAS2F-Model) for multimodal remote sensing image classification. Based on the selective state space model, a cross-modal diff-attention module (CMDA-Module) is designed to extract and separate the common features and their respective dominant features of MS and PAN images. Among this, space preserving visual mamba (SPVM) retains image spatial features and captures local features by optimizing visual mamba's input reasonably. Considering that features in the fusion stage will have large semantic differences after feature separation and simple fusion operations struggle to effectively integrate these significantly different features, an attention-aware linear fusion module (AALF-Module) is proposed. It performs pixel-wise linear fusion by calculating influence coefficients. This mechanism can fuse features with large semantic differences while keeping the feature size unchanged. Empirical evaluations indicate that the presented method achieves better results than alternative approaches. The relevant code can be found at:https://github.com/AVKSKVL/DAS-F-Model