Prior-guided Fusion of Multimodal Features for Change Detection from Optical-SAR Images

📄 arXiv: 2604.05527v1 📥 PDF

作者: Xuanguang Liu, Lei Ding, Yujie Li, Chenguang Dai, Zhenchao Zhang, Mengmeng Li, Ziyi Yang, Yifan Sun, Yongqi Sun, Hanyun Wang

分类: cs.CV

发布日期: 2026-04-07

🔗 代码/项目: GITHUB


💡 一句话要点

提出STSF-Net,利用先验引导的多模态特征融合进行光学-SAR图像变化检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态变化检测 光学-SAR图像 特征融合 语义先验 深度学习

📋 核心要点

  1. 现有MMCD方法在跨模态交互和模态特定特征利用上存在不足,难以精确检测多模态数据中的细粒度语义变化。
  2. STSF-Net联合建模模态特定和时空共同特征,并利用语义先验引导多模态特征融合,增强变化表示能力。
  3. 在Delta-SN6等数据集上,STSF-Net的mIoU指标优于SOTA方法,分别提升了3.21%、1.08%和1.32%。

📝 摘要(中文)

多模态变化检测(MMCD)旨在识别多模态遥感(RS)数据中的变化区域,在土地利用监测、灾害评估和城市可持续发展中具有重要的应用价值。然而,现有的MMCD方法在跨模态交互和利用模态特定特征方面存在局限性,导致对细粒度变化信息的建模不足,从而阻碍了多模态数据中语义变化的精确检测。为了解决上述问题,我们提出了STSF-Net,一个专为光学和SAR图像之间的MMCD设计的框架。STSF-Net联合建模模态特定和时空共同特征,以增强变化表示。具体而言,利用模态特定特征来捕获真正的语义变化信号,同时嵌入时空共同特征来抑制由成像机制差异引起的伪变化。此外,我们引入了一种光学和SAR特征融合策略,该策略基于从预训练基础模型获得的语义先验自适应地调整特征重要性,从而实现语义引导的多模态信息自适应融合。此外,我们引入了Delta-SN6数据集,这是第一个公开可用的多类MMCD基准,由超高分辨率(VHR)全极化SAR和光学图像组成。在Delta-SN6、BRIGHT和Wuhan-Het数据集上的实验结果表明,我们的方法在mIoU方面分别优于最先进的方法3.21%、1.08%和1.32%。相关的代码和Delta-SN6数据集将在https://github.com/liuxuanguang/STSF-Net上发布。

🔬 方法详解

问题定义:论文旨在解决光学和SAR图像多模态变化检测中,由于模态差异导致的伪变化以及现有方法对细粒度语义变化建模不足的问题。现有方法难以有效融合不同模态的特征,并且无法充分利用模态自身的特性,导致变化检测精度不高。

核心思路:论文的核心思路是联合建模模态特定特征和时空共同特征,并利用预训练模型提供的语义先验信息,自适应地融合多模态特征。通过模态特定特征捕获语义变化信号,时空共同特征抑制伪变化,语义先验引导特征融合,从而提高变化检测的精度。

技术框架:STSF-Net框架主要包含以下几个模块:1) 特征提取模块,分别提取光学和SAR图像的模态特定特征;2) 时空共同特征嵌入模块,用于学习图像对的时空相关性,抑制伪变化;3) 先验引导的特征融合模块,利用预训练模型提供的语义先验信息,自适应地融合光学和SAR特征;4) 变化检测模块,基于融合后的特征进行变化区域的分类。

关键创新:论文的关键创新在于提出了先验引导的多模态特征融合策略。该策略利用预训练模型提供的语义先验信息,自适应地调整不同模态特征的重要性,从而更有效地融合多模态信息。这种方法能够更好地利用模态自身的特性,并抑制模态差异带来的影响。

关键设计:论文的关键设计包括:1) 使用深度卷积神经网络提取模态特定特征;2) 设计时空共同特征嵌入模块,学习图像对的时空相关性;3) 利用预训练的视觉Transformer模型提取语义先验信息;4) 设计自适应特征融合模块,根据语义先验信息调整特征权重;5) 使用交叉熵损失函数进行变化检测模型的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STSF-Net在Delta-SN6、BRIGHT和Wuhan-Het三个数据集上进行了实验验证,结果表明该方法在mIoU指标上分别优于当前最先进的方法3.21%、1.08%和1.32%。尤其是在Delta-SN6数据集上,提升幅度显著,表明该方法在处理高分辨率、多类别的多模态变化检测问题上具有优势。

🎯 应用场景

该研究成果可应用于土地利用监测、灾害评估、城市可持续发展等领域。通过精确检测光学和SAR图像之间的变化,可以及时发现土地覆盖变化、灾害影响区域以及城市发展动态,为相关决策提供支持。未来,该方法有望扩展到更多模态的遥感数据,并应用于更广泛的场景。

📄 摘要(原文)

Multimodal change detection (MMCD) identifies changed areas in multimodal remote sensing (RS) data, demonstrating significant application value in land use monitoring, disaster assessment, and urban sustainable development. However, literature MMCD approaches exhibit limitations in cross-modal interaction and exploiting modality-specific characteristics. This leads to insufficient modeling of fine-grained change information, thus hindering the precise detection of semantic changes in multimodal data. To address the above problems, we propose STSF-Net, a framework designed for MMCD between optical and SAR images. STSF-Net jointly models modality-specific and spatio-temporal common features to enhance change representations. Specifically, modality-specific features are exploited to capture genuine semantic change signals, while spatio-temporal common features are embedded to suppress pseudo-changes caused by differences in imaging mechanisms. Furthermore, we introduce an optical and SAR feature fusion strategy that adaptively adjusts feature importance based on semantic priors obtained from pre-trained foundational models, enabling semantic-guided adaptive fusion of multi-modal information. In addition, we introduce the Delta-SN6 dataset, the first openly-accessible multiclass MMCD benchmark consisting of very-high-resolution (VHR) fully polarimetric SAR and optical images. Experimental results on Delta-SN6, BRIGHT, and Wuhan-Het datasets demonstrate that our method outperforms the state-of-the-art (SOTA) by 3.21%, 1.08%, and 1.32% in mIoU, respectively. The associated code and Delta-SN6 dataset will be released at: https://github.com/liuxuanguang/STSF-Net.