Open-Vocabulary Remote Sensing Image Semantic Segmentation

📄 arXiv: 2409.07683v1 📥 PDF

作者: Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang

分类: cs.CV, cs.AI

发布日期: 2024-09-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出面向遥感图像的开放词汇语义分割框架,解决方向和尺度变化难题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥感图像 语义分割 开放词汇 旋转聚合 多尺度特征

📋 核心要点

  1. 现有开放词汇语义分割方法难以应对遥感图像中快速变化的方向和显著的尺度变化。
  2. 提出一种专门为遥感图像设计的OVS框架,通过旋转聚合和多尺度特征融合解决方向和尺度问题。
  3. 建立了首个遥感图像开放词汇语义分割基准,实验结果表明该方法达到了最先进的性能。

📝 摘要(中文)

开放词汇图像语义分割(OVS)旨在将图像分割成跨越开放类别集合的语义区域。现有的OVS方法通常依赖于基础视觉-语言模型,并利用相似性计算来解决OVS任务。然而,这些方法主要针对自然图像,难以应对遥感图像的独特特征,如快速变化的方向和显著的尺度变化。这些挑战使得地球视觉中的OVS任务变得复杂,需要专门的方法。为了解决这个难题,我们提出了第一个专门为遥感图像设计的OVS框架,其灵感来自独特的遥感特征。特别地,为了解决不同的方向问题,我们引入了一个旋转聚合相似性计算模块,该模块生成方向自适应相似性图作为初始语义图。这些图随后在空间和类别级别上进行细化,以产生更准确的语义图。此外,为了管理显著的尺度变化,我们将多尺度图像特征集成到上采样过程中,从而产生最终的尺度感知语义掩码。为了推进地球视觉中的OVS并鼓励可重复的研究,我们建立了第一个开源的遥感图像OVS基准,包括四个公共遥感数据集。在该基准上的大量实验表明,我们提出的方法实现了最先进的性能。所有代码和数据集可在https://github.com/caoql98/OVRS获得。

🔬 方法详解

问题定义:论文旨在解决遥感图像开放词汇语义分割(OVS)问题。现有方法主要针对自然图像设计,无法有效处理遥感图像中存在的方向快速变化和尺度显著差异等问题,导致分割精度下降。

核心思路:论文的核心思路是针对遥感图像的特点,设计专门的模块来处理方向和尺度变化。通过旋转聚合相似性计算模块生成方向自适应的语义图,并结合多尺度特征融合的上采样过程,实现尺度感知的语义分割。

技术框架:该框架主要包含以下几个阶段:1) 使用预训练的视觉-语言模型提取图像特征;2) 使用旋转聚合相似性计算模块生成方向自适应的相似性图;3) 在空间和类别层面对相似性图进行细化,得到更精确的语义图;4) 将多尺度图像特征融入上采样过程,生成最终的尺度感知语义分割掩码。

关键创新:论文的关键创新在于提出了旋转聚合相似性计算模块和多尺度特征融合的上采样方法。旋转聚合模块能够有效处理遥感图像中目标方向的快速变化,而多尺度特征融合则能够提升模型对不同尺度目标的感知能力。

关键设计:旋转聚合相似性计算模块通过对不同旋转角度的特征进行聚合,生成方向鲁棒的相似性图。多尺度特征融合的上采样过程则利用不同尺度的特征图来指导上采样,从而提升分割精度。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文建立了首个遥感图像开放词汇语义分割基准,并在该基准上进行了大量实验。实验结果表明,该方法在多个遥感数据集上取得了state-of-the-art的性能,显著优于现有的开放词汇语义分割方法。(具体性能数据未知)

🎯 应用场景

该研究成果可应用于遥感图像分析、城市规划、环境监测、灾害评估等领域。通过开放词汇语义分割,可以自动识别遥感图像中的各种地物目标,为相关应用提供重要的信息支持,并为未来的地球观测任务提供更强大的分析工具。

📄 摘要(原文)

Open-vocabulary image semantic segmentation (OVS) seeks to segment images into semantic regions across an open set of categories. Existing OVS methods commonly depend on foundational vision-language models and utilize similarity computation to tackle OVS tasks. However, these approaches are predominantly tailored to natural images and struggle with the unique characteristics of remote sensing images, such as rapidly changing orientations and significant scale variations. These challenges complicate OVS tasks in earth vision, requiring specialized approaches. To tackle this dilemma, we propose the first OVS framework specifically designed for remote sensing imagery, drawing inspiration from the distinct remote sensing traits. Particularly, to address the varying orientations, we introduce a rotation-aggregative similarity computation module that generates orientation-adaptive similarity maps as initial semantic maps. These maps are subsequently refined at both spatial and categorical levels to produce more accurate semantic maps. Additionally, to manage significant scale changes, we integrate multi-scale image features into the upsampling process, resulting in the final scale-aware semantic masks. To advance OVS in earth vision and encourage reproducible research, we establish the first open-sourced OVS benchmark for remote sensing imagery, including four public remote sensing datasets. Extensive experiments on this benchmark demonstrate our proposed method achieves state-of-the-art performance. All codes and datasets are available at https://github.com/caoql98/OVRS.