AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images
作者: Saikat Dutta, Akhil Vasim, Siddhant Gole, Hamid Rezatofighi, Biplab Banerjee
分类: cs.CV, cs.AI
发布日期: 2025-04-12
备注: Accepted at EarthVision workshop, CVPR 2025
💡 一句话要点
AerOSeg:利用SAM进行遥感图像的开放词汇分割
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 遥感图像分割 开放词汇分割 分割一切模型 图像文本相关性 语义反向投影
📋 核心要点
- 遥感图像开放词汇分割面临尺度、方向变化和复杂场景的挑战,现有方法难以有效泛化。
- AerOSeg利用旋转图像和领域提示计算鲁棒的图像-文本相关特征,并用SAM特征引导空间细化。
- 实验表明,AerOSeg在iSAID、DLRSD和OpenEarthMap数据集上优于现有开放词汇分割方法,平均提升2.54 h-mIoU。
📝 摘要(中文)
遥感图像分割面临着超越预定义类别的关键挑战,因为在推理过程中经常出现新的和未见过的类别。开放词汇图像分割(OVS)解决了传统监督分割模型中的泛化问题,同时减少了对昂贵的、劳动密集型的逐像素标注的依赖。大多数OVS方法是为自然图像设计的,但由于尺度变化、方向变化和复杂的场景组成,在遥感数据上表现不佳。因此,需要专门为遥感定制的OVS方法。为此,我们提出了AerOSeg,一种用于遥感数据的新型OVS方法。首先,我们使用输入图像的多个旋转版本和特定领域的提示来计算鲁棒的图像-文本相关特征。然后,通过空间和类别细化块来细化这些特征。受到分割一切模型(SAM)在各个领域取得的成功的启发,我们利用SAM特征来指导相关特征的空间细化。此外,我们引入了一个语义反向投影模块和损失,以确保SAM的语义信息在整个分割管道中的无缝传播。最后,我们使用多尺度注意力感知解码器来增强细化的相关特征,从而生成最终的分割图。我们在三个基准遥感数据集iSAID、DLRSD和OpenEarthMap上验证了我们的SAM引导的开放词汇遥感分割模型。我们的模型优于最先进的开放词汇分割方法,平均提高了2.54 h-mIoU。
🔬 方法详解
问题定义:论文旨在解决遥感图像中开放词汇分割的问题。现有方法,特别是为自然图像设计的开放词汇分割方法,在处理遥感图像时表现不佳,因为遥感图像具有尺度变化大、方向变化多、场景复杂等特点。此外,获取遥感图像的像素级标注成本高昂,限制了监督学习方法的应用。
核心思路:论文的核心思路是利用预训练的Segment Anything Model (SAM) 的强大分割能力,并将其与图像-文本相关特征相结合,从而实现对遥感图像的开放词汇分割。通过SAM提供的先验知识,可以更好地进行空间细化和语义信息传播,从而提高分割精度。
技术框架:AerOSeg的整体框架包括以下几个主要模块:1) 图像-文本相关特征计算模块:使用多个旋转版本的输入图像和领域特定提示,计算鲁棒的图像-文本相关特征。2) 空间和类别细化模块:利用SAM特征引导相关特征的空间细化,并进行类别细化。3) 语义反向投影模块:将SAM的语义信息传播到整个分割管道。4) 多尺度注意力感知解码器:增强细化的相关特征,生成最终的分割图。
关键创新:论文的关键创新在于将SAM模型引入到遥感图像的开放词汇分割任务中,并设计了相应的模块来利用SAM的特征。具体来说,利用SAM特征进行空间细化,并引入语义反向投影模块,保证SAM的语义信息能够有效传播。此外,使用旋转图像和领域特定提示来提高图像-文本相关特征的鲁棒性。
关键设计:在图像-文本相关特征计算中,使用了多个旋转角度的图像,以增强模型对方向变化的鲁棒性。语义反向投影模块的具体实现方式未知,但其目的是将SAM的语义信息融入到分割过程中。多尺度注意力感知解码器的具体结构未知,但其目的是利用多尺度信息和注意力机制来提高分割精度。损失函数的设计也未知,但可能包括分割损失和对比损失等。
🖼️ 关键图片
📊 实验亮点
AerOSeg在三个遥感数据集iSAID、DLRSD和OpenEarthMap上进行了评估,并与最先进的开放词汇分割方法进行了比较。实验结果表明,AerOSeg在所有三个数据集上都取得了显著的性能提升,平均h-mIoU提高了2.54%。这表明AerOSeg能够有效地利用SAM的特征,并克服遥感图像的挑战。
🎯 应用场景
该研究成果可应用于遥感图像分析的多个领域,例如土地利用分类、灾害监测、城市规划等。通过开放词汇分割,可以识别遥感图像中未预先定义的物体和区域,从而提高遥感图像分析的自动化程度和效率。未来,该技术可以扩展到其他类型的遥感数据,例如高光谱图像和SAR图像。
📄 摘要(原文)
Image segmentation beyond predefined categories is a key challenge in remote sensing, where novel and unseen classes often emerge during inference. Open-vocabulary image Segmentation addresses these generalization issues in traditional supervised segmentation models while reducing reliance on extensive per-pixel annotations, which are both expensive and labor-intensive to obtain. Most Open-Vocabulary Segmentation (OVS) methods are designed for natural images but struggle with remote sensing data due to scale variations, orientation changes, and complex scene compositions. This necessitates the development of OVS approaches specifically tailored for remote sensing. In this context, we propose AerOSeg, a novel OVS approach for remote sensing data. First, we compute robust image-text correlation features using multiple rotated versions of the input image and domain-specific prompts. These features are then refined through spatial and class refinement blocks. Inspired by the success of the Segment Anything Model (SAM) in diverse domains, we leverage SAM features to guide the spatial refinement of correlation features. Additionally, we introduce a semantic back-projection module and loss to ensure the seamless propagation of SAM's semantic information throughout the segmentation pipeline. Finally, we enhance the refined correlation features using a multi-scale attention-aware decoder to produce the final segmentation map. We validate our SAM-guided Open-Vocabulary Remote Sensing Segmentation model on three benchmark remote sensing datasets: iSAID, DLRSD, and OpenEarthMap. Our model outperforms state-of-the-art open-vocabulary segmentation methods, achieving an average improvement of 2.54 h-mIoU.