ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation

📄 arXiv: 2603.29271v1 📥 PDF

作者: Wenyang Chen, Zhanxuan Hu, Yaping Zhang, Hailong Ning, Yonghang Tai

分类: cs.CV

发布日期: 2026-03-31

🔗 代码/项目: GITHUB


💡 一句话要点

提出ConInfer,通过上下文感知推理解决遥感图像的免训练开放词汇分割问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥感图像分割 开放词汇分割 上下文感知 视觉-语言模型 免训练学习

📋 核心要点

  1. 现有开放词汇遥感分割方法忽略了遥感图像的空间和语义相关性,导致分割精度受限。
  2. ConInfer通过建模空间单元间的语义依赖关系,进行联合预测,从而利用全局上下文信息。
  3. 实验表明,ConInfer在开放词汇语义分割和目标提取任务上,性能显著优于现有方法。

📝 摘要(中文)

本文提出了一种免训练的开放词汇遥感图像分割(OVRSS)方法,该方法利用视觉-语言模型实现类别无关的遥感图像语义理解。现有方法主要集中于增强特征表示或缓解模态差异,以提高patch级别的预测精度。然而,这种独立的预测方案与遥感数据的内在特性不符。现实应用中,遥感场景通常是大规模的,并表现出很强的空间和语义相关性,使得孤立的patch预测不足以进行精确分割。为了解决这个局限性,我们提出了ConInfer,一个用于OVRSS的上下文感知推理框架,它执行跨多个空间单元的联合预测,同时显式地建模单元间的语义依赖关系。通过结合全局上下文线索,我们的方法显著提高了复杂遥感环境中分割的一致性、鲁棒性和泛化能力。在多个基准数据集上的大量实验表明,我们的方法始终优于最先进的基于像素的VLM基线,例如SegEarth-OV,在开放词汇语义分割和对象提取任务上分别实现了平均2.80%和6.13%的改进。

🔬 方法详解

问题定义:现有的免训练开放词汇遥感图像分割方法主要关注于提升单个图像块(patch)的预测精度,而忽略了遥感图像中普遍存在的空间和语义相关性。这种孤立的预测方式无法充分利用全局上下文信息,导致分割结果的一致性、鲁棒性和泛化能力不足。因此,需要一种能够有效利用上下文信息的分割方法来提升遥感图像的分割性能。

核心思路:ConInfer的核心思路是利用遥感图像中相邻区域之间的语义依赖关系,通过联合预测多个空间单元来提升分割精度。该方法显式地建模了单元间的语义依赖关系,从而能够利用全局上下文信息来指导分割过程。通过这种方式,ConInfer能够提高分割结果的一致性,并对噪声和遮挡具有更强的鲁棒性。

技术框架:ConInfer框架主要包含以下几个阶段:1) 图像分块:将遥感图像分割成多个空间单元;2) 特征提取:利用视觉-语言模型提取每个空间单元的视觉特征和文本特征;3) 上下文建模:构建图结构,表示空间单元之间的语义依赖关系;4) 联合推理:利用图神经网络进行消息传递,实现跨单元的联合预测;5) 分割结果融合:将每个空间单元的预测结果融合,得到最终的分割结果。

关键创新:ConInfer的关键创新在于引入了上下文感知的推理机制,通过显式地建模空间单元之间的语义依赖关系,实现了跨单元的联合预测。与现有方法相比,ConInfer能够更有效地利用全局上下文信息,从而提高分割精度和鲁棒性。此外,ConInfer是一种免训练的方法,无需大量的标注数据即可实现高性能的分割。

关键设计:ConInfer的关键设计包括:1) 图结构的构建方式:采用K近邻图来表示空间单元之间的语义依赖关系;2) 图神经网络的选择:使用图卷积网络(GCN)进行消息传递;3) 损失函数的设计:采用交叉熵损失函数来优化分割结果;4) 超参数的设置:通过实验确定最佳的K近邻数量和GCN的层数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ConInfer在多个遥感数据集上进行了实验,结果表明,该方法在开放词汇语义分割和目标提取任务上均取得了显著的性能提升。例如,在open-vocabulary语义分割任务上,ConInfer相比于最先进的基线方法SegEarth-OV,平均提升了2.80%;在目标提取任务上,平均提升了6.13%。这些结果表明,ConInfer能够有效利用上下文信息,提高遥感图像的分割精度和鲁棒性。

🎯 应用场景

ConInfer在遥感图像分析领域具有广泛的应用前景,例如土地覆盖分类、城市规划、灾害监测和环境评估等。该方法能够有效提高遥感图像的语义理解能力,为相关应用提供更准确、可靠的数据支持。未来,ConInfer有望应用于更大规模、更复杂的遥感场景,并与其他遥感分析技术相结合,推动遥感领域的智能化发展。

📄 摘要(原文)

Training-free open-vocabulary remote sensing segmentation (OVRSS), empowered by vision-language models, has emerged as a promising paradigm for achieving category-agnostic semantic understanding in remote sensing imagery. Existing approaches mainly focus on enhancing feature representations or mitigating modality discrepancies to improve patch-level prediction accuracy. However, such independent prediction schemes are fundamentally misaligned with the intrinsic characteristics of remote sensing data. In real-world applications, remote sensing scenes are typically large-scale and exhibit strong spatial as well as semantic correlations, making isolated patch-wise predictions insufficient for accurate segmentation. To address this limitation, we propose ConInfer, a context-aware inference framework for OVRSS that performs joint prediction across multiple spatial units while explicitly modeling their inter-unit semantic dependencies. By incorporating global contextual cues, our method significantly enhances segmentation consistency, robustness, and generalization in complex remote sensing environments. Extensive experiments on multiple benchmark datasets demonstrate that our approach consistently surpasses state-of-the-art per-pixel VLM-based baselines such as SegEarth-OV, achieving average improvements of 2.80% and 6.13% on open-vocabulary semantic segmentation and object extraction tasks, respectively. The implementation code is available at: https://github.com/Dog-Yang/ConInfer