Semantic-CD: Remote Sensing Image Semantic Change Detection towards Open-vocabulary Setting
作者: Yongshuo Zhu, Lu Li, Keyan Chen, Chenyang Liu, Fugen Zhou, Zhenwei Shi
分类: cs.CV
发布日期: 2025-01-12
💡 一句话要点
提出Semantic-CD,利用CLIP增强遥感图像语义变化检测的泛化能力。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感图像 语义变化检测 CLIP 开放词汇 多任务学习
📋 核心要点
- 传统遥感图像变化检测方法在实际场景中难以泛化到新的语义类别。
- Semantic-CD利用CLIP的开放词汇语义知识,提升模型在语义变化检测中的泛化能力。
- 实验表明,Semantic-CD在SECOND数据集上取得了更精确的掩膜和更低的语义分类错误。
📝 摘要(中文)
本文提出了一种名为Semantic-CD的遥感图像语义变化检测新方法,旨在解决传统方法在语义类别泛化方面的挑战。该方法融合了视觉-语言基础模型CLIP的开放词汇语义知识,增强了模型跨类别泛化能力。Semantic-CD采用完全解耦的多任务学习,同时进行二元变化检测和语义变化检测,提升分割效果。Semantic-CD包含四个主要组成部分:双时相CLIP视觉编码器、开放语义提示器、二元变化检测解码器和语义变化检测解码器。在SECOND数据集上的实验结果表明,Semantic-CD能够生成更精确的掩膜,并减少语义分类错误,验证了其在语义变化检测任务中应用视觉-语言基础模型语义先验的有效性。
🔬 方法详解
问题定义:遥感图像语义变化检测旨在识别同一地点不同时间拍摄的图像中发生变化的区域,并对这些变化进行分类。现有方法难以泛化到新的语义类别,限制了其在实际场景中的应用。
核心思路:利用视觉-语言基础模型CLIP的开放词汇语义知识,为遥感图像变化检测提供语义先验。CLIP在大量文本-图像数据上训练,具备强大的跨模态语义理解能力,可以有效提升模型对新语义类别的泛化能力。
技术框架:Semantic-CD包含四个主要模块:1) 双时相CLIP视觉编码器:提取双时相遥感图像的视觉特征。2) 开放语义提示器:利用CLIP的文本编码器,生成与语义类别相关的提示,并构建语义代价体。3) 二元变化检测解码器:生成二元变化检测掩膜,指示图像中发生变化的区域。4) 语义变化检测解码器:生成语义标签,对变化区域进行语义分类。整个框架采用完全解耦的多任务学习方式,同时优化二元变化检测和语义变化检测任务。
关键创新:Semantic-CD的关键创新在于将视觉-语言基础模型CLIP引入遥感图像语义变化检测任务,利用CLIP的开放词汇语义知识增强模型的泛化能力。与传统方法相比,Semantic-CD无需针对特定数据集进行大量标注,即可有效识别新的语义类别。
关键设计:开放语义提示器的设计是关键。通过CLIP的文本编码器,将语义类别名称转换为文本嵌入,然后与视觉特征进行交互,生成语义代价体。损失函数方面,采用交叉熵损失函数优化二元变化检测和语义变化检测任务。网络结构方面,解码器可以采用U-Net等常用的分割网络结构。
🖼️ 关键图片
📊 实验亮点
Semantic-CD在SECOND数据集上进行了实验验证,结果表明,该方法能够生成更精确的变化检测掩膜,并显著降低语义分类错误。相较于传统方法,Semantic-CD在语义变化检测任务中取得了显著的性能提升,验证了其在遥感图像语义变化检测中应用视觉-语言基础模型语义先验的有效性。
🎯 应用场景
Semantic-CD可应用于城市规划、灾害监测、环境评估等领域。例如,可以用于监测城市建筑物变化、洪水灾害影响范围、森林砍伐情况等。该研究有助于提升遥感图像智能解译能力,为相关领域的决策提供更准确的信息支持,并降低对大量标注数据的依赖。
📄 摘要(原文)
Remote sensing image semantic change detection is a method used to analyze remote sensing images, aiming to identify areas of change as well as categorize these changes within images of the same location taken at different times. Traditional change detection methods often face challenges in generalizing across semantic categories in practical scenarios. To address this issue, we introduce a novel approach called Semantic-CD, specifically designed for semantic change detection in remote sensing images. This method incorporates the open vocabulary semantics from the vision-language foundation model, CLIP. By utilizing CLIP's extensive vocabulary knowledge, our model enhances its ability to generalize across categories and improves segmentation through fully decoupled multi-task learning, which includes both binary change detection and semantic change detection tasks. Semantic-CD consists of four main components: a bi-temporal CLIP visual encoder for extracting features from bi-temporal images, an open semantic prompter for creating semantic cost volume maps with open vocabulary, a binary change detection decoder for generating binary change detection masks, and a semantic change detection decoder for producing semantic labels. Experimental results on the SECOND dataset demonstrate that Semantic-CD achieves more accurate masks and reduces semantic classification errors, illustrating its effectiveness in applying semantic priors from vision-language foundation models to SCD tasks.