SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation

📄 arXiv: 2507.12857v2 📥 PDF

作者: Shiqi Huang, Shuting He, Huaiyuan Qin, Bihan Wen

分类: cs.CV

发布日期: 2025-07-17 (更新: 2025-07-29)

备注: ICCV 2025 (Highlight), code see https://github.com/HuangShiqi128/SCORE

🔗 代码/项目: GITHUB


💡 一句话要点

提出SCORE框架,利用场景上下文增强遥感图像开放词汇实例分割性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥感图像 实例分割 开放词汇 场景上下文 深度学习

📋 核心要点

  1. 现有遥感实例分割方法在识别新类别和跨数据集泛化方面存在局限性,难以适应复杂多变的地球观测场景。
  2. SCORE框架通过整合区域和全局场景上下文,增强视觉和文本表示,从而提升开放词汇遥感实例分割的性能。
  3. 实验结果表明,SCORE在开放词汇遥感实例分割任务上取得了SOTA性能,为大规模地理空间分析提供了有效方案。

📝 摘要(中文)

现有的遥感实例分割方法大多针对封闭词汇预测,限制了它们识别新类别或跨数据集泛化的能力,从而限制了其在多样化地球观测场景中的应用。为了解决这个问题,我们引入了遥感图像的开放词汇(OV)学习。虽然目前的OV分割模型在自然图像数据集上表现良好,但直接应用于遥感面临着景观多样性、季节变化以及航空图像中存在的小型或模糊对象等挑战。为了克服这些挑战,我们提出了SCORE(场景上下文在开放词汇遥感实例分割中很重要),该框架集成了多粒度场景上下文,即区域上下文和全局上下文,以增强视觉和文本表示。具体来说,我们引入了区域感知集成,它使用区域上下文来细化类嵌入,以提高对象的可区分性。此外,我们提出了全局上下文自适应,它使用遥感全局上下文来丰富原始文本嵌入,从而为分类器创建更具适应性和表现力的语言潜在空间。我们为跨不同数据集的OV遥感实例分割建立了新的基准。实验结果表明,我们提出的方法实现了SOTA性能,为大规模、真实的地理空间分析提供了强大的解决方案。我们的代码可在https://github.com/HuangShiqi128/SCORE获得。

🔬 方法详解

问题定义:论文旨在解决遥感图像实例分割中开放词汇识别的问题。现有方法主要针对封闭词汇,无法有效识别未在训练集中出现的新类别,泛化能力受限。此外,遥感图像的特殊性,如多样的地物类型、季节变化以及小目标、模糊目标的存在,使得直接应用自然图像上的开放词汇分割模型效果不佳。

核心思路:论文的核心思路是利用场景上下文信息来增强视觉和文本表示,从而提高模型对新类别的识别能力。具体来说,通过整合区域上下文和全局上下文,模型能够更好地理解图像中的地物关系和整体场景信息,从而更准确地进行实例分割。这种设计符合人类认知规律,即我们通常会结合周围环境来判断一个物体的类别。

技术框架:SCORE框架主要包含两个关键模块:区域感知集成(Region-Aware Integration)和全局上下文自适应(Global Context Adaptation)。首先,利用区域感知集成模块,通过区域上下文信息来细化类嵌入,提高不同类别之间的区分度。然后,利用全局上下文自适应模块,将遥感图像的全局场景信息融入到文本嵌入中,从而使文本表示更具适应性和表达力。最终,利用增强后的视觉和文本表示进行实例分割。

关键创新:论文的关键创新在于将多粒度的场景上下文信息(区域上下文和全局上下文)融入到开放词汇遥感实例分割任务中。与现有方法相比,SCORE框架能够更有效地利用场景信息来提高模型对新类别的识别能力,从而实现更好的泛化性能。

关键设计:在区域感知集成模块中,具体实现方式未知。在全局上下文自适应模块中,具体实现方式未知。损失函数和网络结构等细节未在摘要中提及,需要查阅论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在开放词汇遥感实例分割任务上取得了SOTA性能,证明了SCORE框架的有效性。具体性能数据、对比基线和提升幅度需要在论文全文中查找。该研究为遥感图像智能分析提供了一种新的思路,具有重要的学术价值和应用前景。

🎯 应用场景

该研究成果可广泛应用于遥感图像分析领域,例如城市规划、灾害监测、农业估产、环境评估等。通过开放词汇实例分割,可以自动识别和分割遥感图像中的各种地物目标,为大规模地理空间分析提供有力支持,并为相关决策提供依据。未来,该技术有望应用于更广泛的地球观测任务,例如自动驾驶、机器人导航等。

📄 摘要(原文)

Most existing remote sensing instance segmentation approaches are designed for close-vocabulary prediction, limiting their ability to recognize novel categories or generalize across datasets. This restricts their applicability in diverse Earth observation scenarios. To address this, we introduce open-vocabulary (OV) learning for remote sensing instance segmentation. While current OV segmentation models perform well on natural image datasets, their direct application to remote sensing faces challenges such as diverse landscapes, seasonal variations, and the presence of small or ambiguous objects in aerial imagery. To overcome these challenges, we propose $\textbf{SCORE}$ ($\textbf{S}$cene $\textbf{C}$ontext matters in $\textbf{O}$pen-vocabulary $\textbf{RE}$mote sensing instance segmentation), a framework that integrates multi-granularity scene context, i.e., regional context and global context, to enhance both visual and textual representations. Specifically, we introduce Region-Aware Integration, which refines class embeddings with regional context to improve object distinguishability. Additionally, we propose Global Context Adaptation, which enriches naive text embeddings with remote sensing global context, creating a more adaptable and expressive linguistic latent space for the classifier. We establish new benchmarks for OV remote sensing instance segmentation across diverse datasets. Experimental results demonstrate that, our proposed method achieves SOTA performance, which provides a robust solution for large-scale, real-world geospatial analysis. Our code is available at https://github.com/HuangShiqi128/SCORE.