Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation

📄 arXiv: 2412.19492v1 📥 PDF

作者: Chengyang Ye, Yunzhi Zhuge, Pingping Zhang

分类: cs.CV, cs.MM

发布日期: 2024-12-27

备注: Accepted by AAAI2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出GSNet框架与LandDiscover50K数据集,实现遥感图像开放词汇语义分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥感图像分割 开放词汇 语义分割 视觉-语言模型 特征融合

📋 核心要点

  1. 现有遥感图像分割方法依赖预定义语义类别,无法分割任意语义类别,泛化能力受限。
  2. 提出GSNet框架,结合遥感领域先验知识和视觉-语言模型能力,实现开放词汇语义分割。
  3. 构建LandDiscover50K数据集,实验表明GSNet显著优于现有方法,数据集提升OVRSISS性能。

📝 摘要(中文)

本文提出开放词汇遥感图像语义分割(OVRSISS)任务,旨在分割遥感图像中任意语义类别。为解决OVRSISS数据集的匮乏问题,构建了LandDiscover50K数据集,包含51846张图像,覆盖40个不同的语义类别。此外,提出了一种名为GSNet的新框架,该框架融合了遥感领域先验知识和通用视觉-语言模型的强大能力。GSNet由双流图像编码器(DSIE)、查询引导特征融合(QGFF)和残差信息保持解码器(RIPD)组成。DSIE首先从双流中的专用模型和通用模型中捕获全面的特征。然后,在可变词汇表的指导下,QGFF整合专家和通用特征,使它们能够相互补充。最后,RIPD被提出用于聚合多源特征,以实现更准确的掩码预测。实验表明,该方法优于其他方法,并且所提出的LandDiscover50K数据集提高了OVRSISS方法的性能。所提出的数据集和方法将在https://github.com/yecy749/GSNet上公开。

🔬 方法详解

问题定义:遥感图像语义分割任务通常局限于预定义的类别集合,当需要分割新的类别时,需要重新标注数据和训练模型。这种封闭词汇的设定限制了模型的泛化能力,无法适应真实世界中复杂多变的场景。现有方法难以处理开放词汇场景下的遥感图像分割问题。

核心思路:本文的核心思路是结合遥感领域先验知识和通用视觉-语言模型的优势。利用遥感领域模型提取特定领域的特征,同时利用视觉-语言模型理解开放词汇的语义信息。通过特征融合,使模型能够分割任意语义类别的遥感图像。

技术框架:GSNet框架主要由三个模块组成:双流图像编码器(DSIE)、查询引导特征融合(QGFF)和残差信息保持解码器(RIPD)。DSIE使用两个独立的编码器分别提取遥感领域特征和通用视觉特征。QGFF模块根据输入的文本查询,自适应地融合两个编码器的特征。RIPD模块则负责将融合后的特征解码为最终的分割掩码。

关键创新:GSNet的关键创新在于其双流编码器和查询引导的特征融合机制。双流编码器能够同时利用遥感领域知识和通用视觉知识,从而提高模型的分割精度和泛化能力。查询引导的特征融合机制则能够根据不同的文本查询,动态地调整特征融合的权重,从而实现对任意语义类别的分割。

关键设计:DSIE使用预训练的遥感图像分割模型和CLIP模型作为两个独立的编码器。QGFF模块使用注意力机制来计算特征融合的权重。RIPD模块使用残差连接来保留更多的细节信息。损失函数包括分割损失和对比学习损失,用于优化模型的分割精度和语义一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSNet在LandDiscover50K数据集上显著优于其他开放词汇语义分割方法。相较于现有方法,GSNet在分割精度上取得了显著提升,证明了该框架的有效性。LandDiscover50K数据集的发布也为遥感图像开放词汇语义分割领域的研究提供了重要的数据支持。

🎯 应用场景

该研究成果可应用于智慧城市建设、环境监测、灾害评估等领域。例如,可以利用该技术自动识别遥感图像中的建筑物、道路、植被等,为城市规划提供数据支持。在环境监测方面,可以用于监测森林砍伐、水污染等。在灾害评估方面,可以用于快速评估地震、洪水等灾害造成的损失。

📄 摘要(原文)

Recently, deep learning based methods have revolutionized remote sensing image segmentation. However, these methods usually rely on a pre-defined semantic class set, thus needing additional image annotation and model training when adapting to new classes. More importantly, they are unable to segment arbitrary semantic classes. In this work, we introduce Open-Vocabulary Remote Sensing Image Semantic Segmentation (OVRSISS), which aims to segment arbitrary semantic classes in remote sensing images. To address the lack of OVRSISS datasets, we develop LandDiscover50K, a comprehensive dataset of 51,846 images covering 40 diverse semantic classes. In addition, we propose a novel framework named GSNet that integrates domain priors from special remote sensing models and versatile capabilities of general vision-language models. Technically, GSNet consists of a Dual-Stream Image Encoder (DSIE), a Query-Guided Feature Fusion (QGFF), and a Residual Information Preservation Decoder (RIPD). DSIE first captures comprehensive features from both special models and general models in dual streams. Then, with the guidance of variable vocabularies, QGFF integrates specialist and generalist features, enabling them to complement each other. Finally, RIPD is proposed to aggregate multi-source features for more accurate mask predictions. Experiments show that our method outperforms other methods by a large margin, and our proposed LandDiscover50K improves the performance of OVRSISS methods. The proposed dataset and method will be made publicly available at https://github.com/yecy749/GSNet.