Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance
作者: Yongshuo Zhu, Lu Li, Keyan Chen, Chenyang Liu, Fugen Zhou, Zhenwei Shi
分类: cs.CV
发布日期: 2024-07-19
💡 一句话要点
提出Semantic-CC,利用基础知识和语义引导提升遥感图像变化描述效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感图像变化描述 变化检测 基础模型 语义引导 多任务学习
📋 核心要点
- 现有遥感图像变化描述方法难以表达通用特征,且缺乏细粒度、鲁棒和精确的变化描述能力。
- Semantic-CC利用基础模型的知识,并结合变化检测的像素级语义引导,生成更准确全面的变化描述。
- 实验表明,Semantic-CC在LEVIR-CC和LEVIR-CD数据集上表现出色,验证了变化检测和变化描述的互补性。
📝 摘要(中文)
遥感图像变化描述(RSICC)旨在用自然语言描述双时相遥感图像中感兴趣对象的变化。针对现有RSICC方法在表达跨时空场景的通用特征方面的局限性,以及在提供细粒度、鲁棒和精确的变化描述方面的不足,我们提出了一种基于基础知识和语义引导的新型变化描述(CC)方法,称为Semantic-CC。Semantic-CC通过利用基础模型的潜在知识来减轻高泛化算法对大量标注的依赖,并生成由来自变化检测(CD)的像素级语义引导的更全面和准确的变化描述。具体来说,我们提出了一种基于双时相SAM的编码器用于双图像特征提取;一个多任务语义聚合颈用于促进异构任务之间的信息交互;一个直接的多尺度变化检测解码器,以提供像素级语义指导;以及一个基于大型语言模型(LLM)的变化描述解码器,以生成变化描述语句。此外,为了确保CD和CC联合训练的稳定性,我们提出了一种三阶段训练策略,在不同阶段监督不同的任务。我们在LEVIR-CC和LEVIR-CD数据集上验证了所提出的方法。实验结果证实了CD和CC的互补性,表明Semantic-CC可以生成更准确的变化描述,并在两个任务中都实现最佳性能。
🔬 方法详解
问题定义:遥感图像变化描述(RSICC)旨在利用自然语言描述双时相遥感图像中目标对象的变化情况。现有方法泛化能力不足,难以适应不同时空场景,且变化描述不够细致、准确和鲁棒。这些方法通常依赖大量标注数据,且难以有效利用先验知识。
核心思路:Semantic-CC的核心在于结合基础模型(Foundation Model)的先验知识和变化检测(Change Detection)提供的像素级语义信息,从而提升变化描述的准确性和全面性。通过利用基础模型的泛化能力,减少对大量标注数据的依赖;通过像素级语义引导,提供更精细的变化信息,从而生成更准确的变化描述。
技术框架:Semantic-CC包含以下主要模块:1) 双时相SAM编码器:用于提取双时相图像的特征。2) 多任务语义聚合颈:用于促进变化检测和变化描述两个任务之间的信息交互。3) 多尺度变化检测解码器:提供像素级的语义引导信息。4) 基于LLM的变化描述解码器:生成最终的变化描述语句。整个流程首先通过双时相SAM编码器提取特征,然后通过多任务语义聚合颈进行信息融合,再利用变化检测解码器提供语义引导,最后由LLM生成变化描述。
关键创新:Semantic-CC的关键创新在于:1) 引入了基于SAM的双时相特征提取方法,有效利用了预训练模型的泛化能力。2) 提出了多任务语义聚合颈,实现了变化检测和变化描述任务之间的信息共享和互补。3) 采用了三阶段训练策略,保证了CD和CC联合训练的稳定性。
关键设计:双时相SAM编码器利用了Segment Anything Model (SAM) 的强大分割能力,提取图像特征。多任务语义聚合颈的设计旨在平衡变化检测和变化描述两个任务的需求,通过特定的网络结构实现信息融合。三阶段训练策略包括:第一阶段预训练变化检测模块,第二阶段预训练变化描述模块,第三阶段联合训练两个模块,并引入损失函数来平衡两个任务的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Semantic-CC在LEVIR-CC和LEVIR-CD数据集上均取得了最佳性能。相较于现有方法,Semantic-CC能够生成更准确的变化描述,并有效提升变化检测的精度。实验验证了变化检测和变化描述之间的互补性,以及基础模型和语义引导的有效性。
🎯 应用场景
Semantic-CC可应用于城市规划、灾害监测、环境评估等领域。通过自动生成遥感图像变化描述,可以帮助用户快速了解地表变化情况,辅助决策。该研究的未来影响在于提升遥感图像解译的自动化水平,降低人工成本,提高效率。
📄 摘要(原文)
Remote sensing image change captioning (RSICC) aims to articulate the changes in objects of interest within bi-temporal remote sensing images using natural language. Given the limitations of current RSICC methods in expressing general features across multi-temporal and spatial scenarios, and their deficiency in providing granular, robust, and precise change descriptions, we introduce a novel change captioning (CC) method based on the foundational knowledge and semantic guidance, which we term Semantic-CC. Semantic-CC alleviates the dependency of high-generalization algorithms on extensive annotations by harnessing the latent knowledge of foundation models, and it generates more comprehensive and accurate change descriptions guided by pixel-level semantics from change detection (CD). Specifically, we propose a bi-temporal SAM-based encoder for dual-image feature extraction; a multi-task semantic aggregation neck for facilitating information interaction between heterogeneous tasks; a straightforward multi-scale change detection decoder to provide pixel-level semantic guidance; and a change caption decoder based on the large language model (LLM) to generate change description sentences. Moreover, to ensure the stability of the joint training of CD and CC, we propose a three-stage training strategy that supervises different tasks at various stages. We validate the proposed method on the LEVIR-CC and LEVIR-CD datasets. The experimental results corroborate the complementarity of CD and CC, demonstrating that Semantic-CC can generate more accurate change descriptions and achieve optimal performance across both tasks.