SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images

📄 arXiv: 2410.01768v2 📥 PDF

作者: Kaiyu Li, Ruixun Liu, Xiangyong Cao, Xueru Bai, Feng Zhou, Deyu Meng, Zhi Wang

分类: cs.CV

发布日期: 2024-10-02 (更新: 2024-11-04)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SegEarth-OV,实现遥感图像的免训练开放词汇分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥感图像分割 开放词汇分割 免训练 语义分割 空间信息恢复 全局偏差校正 深度学习

📋 核心要点

  1. 遥感图像像素级分割依赖大量标注,开放词汇分割(OVSS)可减少标注需求,但直接应用效果不佳。
  2. 提出SimFeatUp上采样器恢复空间信息,并使用减法操作减轻patch tokens的全局偏差。
  3. 在17个遥感数据集上实验表明,该方法在多个任务上显著优于现有方法,平均提升高达15.3%。

📝 摘要(中文)

遥感图像在农业、水资源、军事和救灾等领域发挥着不可替代的作用。像素级解译是遥感图像应用的关键方面;然而,一个普遍的限制仍然是需要大量的手动标注。为此,我们尝试将开放词汇语义分割(OVSS)引入遥感领域。然而,由于遥感图像对低分辨率特征的敏感性,预测掩码中会表现出扭曲的目标形状和不合适的边界。为了解决这个问题,我们提出了一个简单而通用的上采样器SimFeatUp,以无训练的方式恢复深度特征中丢失的空间信息。此外,基于对CLIP中局部patch tokens对[CLS] token的异常响应的观察,我们提出执行一个简单的减法操作来减轻patch tokens中的全局偏差。在涵盖语义分割、建筑物提取、道路检测和洪水检测任务的17个遥感数据集上进行了大量实验。我们的方法在4个任务上比最先进的方法平均提高了5.8%、8.2%、4.0%和15.3%。所有代码已发布。

🔬 方法详解

问题定义:遥感图像的像素级语义分割任务需要大量的标注数据,成本高昂。开放词汇语义分割(OVSS)旨在减少对标注数据的依赖,但直接将OVSS方法应用于遥感图像时,由于遥感图像的特殊性(例如对低分辨率特征的敏感性),会导致分割结果出现目标形状扭曲、边界不清晰等问题。现有方法难以有效解决遥感图像中空间信息丢失和全局偏差的问题。

核心思路:论文的核心思路是通过恢复深度特征中丢失的空间信息,并减轻patch tokens中的全局偏差,从而提高OVSS在遥感图像上的分割性能。SimFeatUp上采样器旨在恢复丢失的空间信息,而减法操作则用于消除patch tokens中的全局偏差。这样设计的目的是为了更好地适应遥感图像的特点,提高分割精度。

技术框架:该方法主要包含两个关键模块:SimFeatUp上采样器和全局偏差校正模块。首先,使用SimFeatUp上采样器恢复深度特征中丢失的空间信息,提高特征的分辨率。然后,通过观察CLIP模型中局部patch tokens对[CLS] token的异常响应,提出使用减法操作来减轻patch tokens中的全局偏差。最后,将处理后的特征用于开放词汇语义分割任务,得到最终的分割结果。

关键创新:论文的关键创新在于提出了SimFeatUp上采样器和全局偏差校正模块,这两个模块都是针对遥感图像的特点设计的。SimFeatUp上采样器采用无训练的方式,避免了额外的训练成本。全局偏差校正模块通过简单的减法操作,有效地减轻了patch tokens中的全局偏差,提高了分割精度。与现有方法相比,该方法更加简单有效,且不需要额外的训练数据。

关键设计:SimFeatUp上采样器采用双线性插值的方式进行上采样,并通过卷积层进行特征融合。全局偏差校正模块通过计算局部patch tokens与[CLS] token之间的差异,并将其从patch tokens中减去,从而减轻全局偏差。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在17个遥感数据集上进行了广泛的实验,涵盖了语义分割、建筑物提取、道路检测和洪水检测等任务。实验结果表明,该方法在4个任务上比最先进的方法平均提高了5.8%、8.2%、4.0%和15.3%。尤其在洪水检测任务上,提升幅度显著,表明该方法在处理复杂遥感图像时具有较强的优势。

🎯 应用场景

该研究成果可广泛应用于遥感图像分析领域,例如农作物估产、水资源监测、城市规划、灾害评估等。通过减少对人工标注的依赖,可以降低遥感图像处理的成本,提高效率。未来,该方法有望应用于更大规模、更复杂的遥感图像分析任务中,为相关领域提供更准确、更可靠的信息支持。

📄 摘要(原文)

Remote sensing image plays an irreplaceable role in fields such as agriculture, water resources, military, and disaster relief. Pixel-level interpretation is a critical aspect of remote sensing image applications; however, a prevalent limitation remains the need for extensive manual annotation. For this, we try to introduce open-vocabulary semantic segmentation (OVSS) into the remote sensing context. However, due to the sensitivity of remote sensing images to low-resolution features, distorted target shapes and ill-fitting boundaries are exhibited in the prediction mask. To tackle this issue, we propose a simple and general upsampler, SimFeatUp, to restore lost spatial information in deep features in a training-free style. Further, based on the observation of the abnormal response of local patch tokens to [CLS] token in CLIP, we propose to execute a straightforward subtraction operation to alleviate the global bias in patch tokens. Extensive experiments are conducted on 17 remote sensing datasets spanning semantic segmentation, building extraction, road detection, and flood detection tasks. Our method achieves an average of 5.8%, 8.2%, 4.0%, and 15.3% improvement over state-of-the-art methods on 4 tasks. All codes are released. \url{https://earth-insights.github.io/SegEarth-OV}