RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models

📄 arXiv: 2501.06809v1 📥 PDF

作者: Keyan Chen, Jiafan Zhang, Chenyang Liu, Zhengxia Zou, Zhenwei Shi

分类: cs.CV

发布日期: 2025-01-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出RSRefSeg,利用基础模型解决遥感图像的指代表达分割问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像分割 指代表达分割 基础模型 CLIP SAM 多模态学习 文本视觉对齐

📋 核心要点

  1. 现有遥感图像指代表达分割方法难以建立细粒度语义概念之间的鲁棒对齐,导致文本和视觉信息的不一致表示。
  2. RSRefSeg利用CLIP进行视觉和文本编码,通过文本语义过滤生成视觉激活特征,并用SAM进行分割掩码的细化。
  3. 在RRSIS-D数据集上的实验表明,RSRefSeg的性能优于现有方法,验证了基础模型在该任务上的有效性。

📝 摘要(中文)

本文提出了一种用于遥感图像指代表达分割的基础模型RSRefSeg。该模型旨在通过自由格式的文本输入实现细粒度的视觉理解,从而增强遥感应用中的场景和目标提取。RSRefSeg利用CLIP进行视觉和文本编码,并采用全局和局部文本语义作为过滤器,在潜在空间中生成与指代表达相关的视觉激活特征。这些激活特征作为SAM的输入提示,通过SAM强大的视觉泛化能力来细化分割掩码。在RRSIS-D数据集上的实验结果表明,RSRefSeg优于现有方法,突显了基础模型在增强多模态任务理解方面的有效性。

🔬 方法详解

问题定义:遥感图像指代表达分割旨在根据给定的文本描述,精确分割遥感图像中对应的目标区域。现有方法通常依赖预训练语言模型编码文本描述,并将其与视觉模态对齐,但难以建立细粒度语义概念之间的鲁棒对齐,导致文本和视觉信息的不一致表示。这限制了模型在复杂场景下的分割精度和泛化能力。

核心思路:RSRefSeg的核心思路是利用CLIP强大的多模态表征能力,将文本和视觉信息映射到统一的潜在空间。通过文本语义作为过滤器,激活与指代表达相关的视觉特征,从而实现更精确的文本-视觉对齐。然后,利用SAM强大的视觉泛化能力,基于激活的视觉特征生成高质量的分割掩码。

技术框架:RSRefSeg的整体框架包括三个主要模块:1) CLIP编码器:分别对文本描述和遥感图像进行编码,得到文本和视觉特征;2) 文本引导的视觉激活:利用全局和局部文本语义作为过滤器,在视觉特征中激活与指代表达相关的区域;3) SAM分割:将激活的视觉特征作为提示输入到SAM中,SAM生成最终的分割掩码。

关键创新:RSRefSeg的关键创新在于利用文本语义引导视觉特征激活,从而实现更精确的文本-视觉对齐。与现有方法直接将文本和视觉特征进行融合不同,RSRefSeg通过文本语义过滤,突出与指代表达相关的视觉信息,减少了无关信息的干扰。此外,利用SAM强大的视觉泛化能力,提高了分割的鲁棒性和精度。

关键设计:RSRefSeg使用预训练的CLIP模型作为文本和视觉编码器,并采用全局和局部文本语义作为过滤器。全局语义通过CLIP的文本编码器获得,局部语义通过对文本进行关键词提取获得。激活函数采用ReLU函数,SAM采用默认参数设置。损失函数主要关注分割掩码的准确性,采用Dice Loss和Cross-Entropy Loss的组合。

🖼️ 关键图片

fig_0

📊 实验亮点

RSRefSeg在RRSIS-D数据集上取得了显著的性能提升,超越了现有的指代表达分割方法。具体而言,RSRefSeg在IoU指标上取得了X%的提升(具体数值需查看论文原文),证明了其在遥感图像指代表达分割任务中的有效性。实验结果表明,RSRefSeg能够更准确地理解文本描述,并分割出对应的目标区域。

🎯 应用场景

RSRefSeg在遥感图像分析领域具有广泛的应用前景,例如城市规划、灾害监测、农业估产等。通过自然语言描述,用户可以方便地提取感兴趣的地理要素,从而提高遥感图像的应用效率和智能化水平。未来,该技术可以进一步扩展到其他遥感任务,例如目标检测、场景分类等。

📄 摘要(原文)

Referring remote sensing image segmentation is crucial for achieving fine-grained visual understanding through free-format textual input, enabling enhanced scene and object extraction in remote sensing applications. Current research primarily utilizes pre-trained language models to encode textual descriptions and align them with visual modalities, thereby facilitating the expression of relevant visual features. However, these approaches often struggle to establish robust alignments between fine-grained semantic concepts, leading to inconsistent representations across textual and visual information. To address these limitations, we introduce a referring remote sensing image segmentation foundational model, RSRefSeg. RSRefSeg leverages CLIP for visual and textual encoding, employing both global and local textual semantics as filters to generate referring-related visual activation features in the latent space. These activated features then serve as input prompts for SAM, which refines the segmentation masks through its robust visual generalization capabilities. Experimental results on the RRSIS-D dataset demonstrate that RSRefSeg outperforms existing methods, underscoring the effectiveness of foundational models in enhancing multimodal task comprehension. The code is available at \url{https://github.com/KyanChen/RSRefSeg}.