Foundation Model-Driven Semantic Change Detection in Remote Sensing Imagery

📄 arXiv: 2602.13780v1 📥 PDF

作者: Hengtong Shen, Li Yan, Hong Xie, Yaxuan Wei, Xinhao Li, Wenfei Shen, Peixian Lv, Fei Tan

分类: cs.CV

发布日期: 2026-02-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出PerASCD,利用遥感基础模型提升语义变化检测性能并简化流程

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 语义变化检测 基础模型 级联门控解码器 软语义一致性损失

📋 核心要点

  1. 现有语义变化检测方法在模型语义理解能力和流程复杂度上存在挑战,限制了性能提升。
  2. PerASCD利用遥感基础模型PerA,通过级联门控解码器和软语义一致性损失来增强语义理解和训练稳定性。
  3. 实验表明,PerASCD简化了SCD流程,实现了跨视觉编码器的适配,并在基准数据集上取得了SOTA性能。

📝 摘要(中文)

遥感(RS)变化检测方法能够提取地表动态的关键信息,是人类理解地表和环境变化的重要手段。其中,语义变化检测(SCD)可以更有效地解释双时相遥感图像中包含的多类信息,提供支持动态变化监测的语义级预测。然而,由于模型有限的语义理解能力以及SCD任务固有的复杂性,现有的SCD方法在性能和范式复杂性方面都面临着重大挑战。本文提出了一种由遥感基础模型PerA驱动的SCD方法PerASCD,旨在增强多尺度语义理解和整体性能。我们引入了一个模块化的级联门控解码器(CG-Decoder),它简化了复杂的SCD解码流程,同时促进了有效的多层次特征交互和融合。此外,我们提出了一种软语义一致性损失(SSCLoss)来缓解SCD训练中常见的数值不稳定性。我们进一步探索了在配备所提出的解码器时,多个现有RS基础模型在SCD任务上的适用性。实验结果表明,我们的解码器不仅有效地简化了SCD的范式,而且实现了跨各种视觉编码器的无缝适应。我们的方法在两个公共基准数据集上实现了最先进(SOTA)的性能,验证了其有效性。

🔬 方法详解

问题定义:现有的语义变化检测(SCD)方法面临两个主要问题:一是模型对遥感图像的语义理解能力有限,难以准确区分和识别地物类别;二是SCD任务的解码流程通常较为复杂,涉及多个模块和复杂的特征融合策略,导致训练和推理效率较低。这些问题限制了SCD在实际应用中的效果和推广。

核心思路:PerASCD的核心思路是利用遥感领域的基础模型(如PerA)强大的语义表征能力,并设计一个简洁高效的解码器来充分利用这些表征。通过基础模型提取深层语义特征,然后通过精心设计的解码器进行特征融合和变化检测,从而提升SCD的性能和效率。此外,引入软语义一致性损失来提高训练的稳定性。

技术框架:PerASCD的整体框架包括三个主要部分:首先,使用遥感基础模型(如PerA)对双时相遥感图像进行编码,提取多尺度语义特征。然后,将提取的特征输入到提出的级联门控解码器(CG-Decoder)中,该解码器通过级联的门控单元实现多层次特征的交互和融合。最后,利用解码器的输出进行像素级别的语义变化预测。在训练过程中,使用交叉熵损失和软语义一致性损失(SSCLoss)来优化模型。

关键创新:PerASCD的主要创新点在于:1) 提出了一种模块化的级联门控解码器(CG-Decoder),该解码器简化了复杂的SCD解码流程,同时促进了有效的多层次特征交互和融合。2) 提出了一种软语义一致性损失(SSCLoss),用于缓解SCD训练中常见的数值不稳定性,提高模型的泛化能力。3) 探索了多个现有遥感基础模型在SCD任务上的适用性,并验证了所提出的解码器可以与不同的视觉编码器无缝集成。

关键设计:CG-Decoder采用级联的结构,每一级包含一个门控单元,用于控制不同层次特征的融合比例。门控单元的设计允许模型自适应地选择重要的特征,抑制噪声信息。SSCLoss通过约束模型在不同尺度上的预测结果的一致性,来提高训练的稳定性。具体来说,SSCLoss计算不同尺度预测结果之间的KL散度,并将其作为正则化项添加到总损失函数中。此外,论文还详细描述了如何将CG-Decoder与不同的遥感基础模型进行集成,并给出了具体的训练策略。

📊 实验亮点

PerASCD在两个公共基准数据集上取得了SOTA性能,验证了其有效性。实验结果表明,所提出的CG-Decoder不仅简化了SCD流程,而且实现了跨各种视觉编码器的无缝适应。此外,SSCLoss有效地缓解了训练过程中的数值不稳定性,提高了模型的泛化能力。具体性能数据在论文中详细展示。

🎯 应用场景

PerASCD在城市规划、灾害监测、农业资源管理等领域具有广泛的应用前景。通过精确检测地表语义变化,可以为城市发展提供决策支持,及时发现和评估自然灾害的影响,以及优化农业生产布局。该研究有助于提升遥感图像解译的智能化水平,为可持续发展提供技术支撑。

📄 摘要(原文)

Remote sensing (RS) change detection methods can extract critical information on surface dynamics and are an essential means for humans to understand changes in the earth's surface and environment. Among these methods, semantic change detection (SCD) can more effectively interpret the multi-class information contained in bi-temporal RS imagery, providing semantic-level predictions that support dynamic change monitoring. However, due to the limited semantic understanding capability of the model and the inherent complexity of the SCD tasks, existing SCD methods face significant challenges in both performance and paradigm complexity. In this paper, we propose PerASCD, a SCD method driven by RS foundation model PerA, designed to enhance the multi-scale semantic understanding and overall performance. We introduce a modular Cascaded Gated Decoder (CG-Decoder) that simplifies complex SCD decoding pipelines while promoting effective multi-level feature interaction and fusion. In addition, we propose a Soft Semantic Consistency Loss (SSCLoss) to mitigate the numerical instability commonly encountered during SCD training. We further explore the applicability of multiple existing RS foundation models on the SCD task when equipped with the proposed decoder. Experimental results demonstrate that our decoder not only effectively simplifies the paradigm of SCD, but also achieves seamless adaptation across various vision encoders. Our method achieves state-of-the-art (SOTA) performance on two public benchmark datasets, validating its effectiveness. The code is available at https://github.com/SathShen/PerASCD.git.