Seeking Consensus: Geometric-Semantic On-the-Fly Recalibration for Open-Vocabulary Remote Sensing Semantic Segmentation

📄 arXiv: 2604.26221v1 📥 PDF

作者: Guanchun Wang, Chenxiao Wu, Xiangrong Zhang, Zelin Peng, Jianxun Lai, Tianyang Zhang, Xu Tang

分类: cs.CV, cs.AI

发布日期: 2026-04-29

备注: 11 pages, 9 figures


💡 一句话要点

提出SeeCo框架,通过几何-语义共识校准提升遥感开放词汇语义分割性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥感图像 开放词汇语义分割 几何共识学习 语义共识学习 免训练 动态校准 多视角学习

📋 核心要点

  1. 现有遥感开放词汇语义分割方法忽略场景分布差异,导致语义模糊和前景激活不完整。
  2. SeeCo框架通过几何共识学习和语义共识学习,动态校准视觉和文本语义,缓解欠激活和语义偏差。
  3. 实验表明,SeeCo在多个遥感数据集上取得了显著的性能提升,验证了其有效性和通用性。

📝 摘要(中文)

本文提出了一种名为SeeCo的即插即用框架,旨在提升遥感图像中免训练开放词汇语义分割(OVSS)模型的性能。现有方法忽略了不同场景的分布差异,导致语义模糊和前景激活不完整。SeeCo通过寻求双重共识来动态校准OVSS模型:通过多视角一致性观测进行几何共识学习(GCL),以及通过文本描述自适应校准进行语义共识学习(SCL),从而协同校准视觉和文本语义。这两种共识通过在线共识注入器(OCI)注入,有效缓解了欠激活和语义偏差。SeeCo无需特定训练过程,即可在推理过程中为每个独特场景校准语义-几何对齐。在八个遥感OVSS基准上的大量实验表明,SeeCo取得了持续的性能提升,证明了其有效性和通用性。

🔬 方法详解

问题定义:遥感图像开放词汇语义分割旨在利用文本描述识别未定义的土地覆盖类别。现有方法采用静态推理范式,忽略了不同遥感场景的分布差异,导致语义分割结果中出现语义歧义和前景激活不完整的问题。这些问题限制了模型在复杂遥感场景中的应用能力。

核心思路:SeeCo的核心思路是通过寻求几何和语义的双重共识,动态地校准OVSS模型。几何共识学习利用多视角一致性观测,增强模型对几何结构的理解;语义共识学习则通过文本描述自适应校准,提高模型对语义信息的敏感度。通过双重共识,可以有效缓解欠激活和语义偏差,提升分割精度。

技术框架:SeeCo是一个即插即用的框架,包含几何共识学习(GCL)、语义共识学习(SCL)和在线共识注入器(OCI)三个主要模块。GCL通过多视角图像提取特征,并利用一致性损失进行学习。SCL利用文本描述生成自适应校准向量,对视觉特征进行校准。OCI将GCL和SCL的结果融合,并注入到原始OVSS模型中,实现动态校准。

关键创新:SeeCo的关键创新在于提出了双重共识学习机制,即几何共识学习和语义共识学习,并将其融合到一个统一的框架中。与现有方法相比,SeeCo无需训练,即可在推理过程中动态地校准模型,适应不同的遥感场景。

关键设计:几何共识学习中,采用了多视角图像增强技术,例如旋转、缩放等,以获得不同的视角。语义共识学习中,利用文本编码器生成文本特征,并将其映射到视觉特征空间,实现自适应校准。在线共识注入器采用加权融合的方式,将几何和语义共识的结果与原始特征进行融合。损失函数包括几何一致性损失和分割损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SeeCo在八个遥感OVSS基准数据集上进行了广泛的实验,结果表明,SeeCo能够显著提升现有OVSS模型的性能。例如,在某数据集上,SeeCo将分割精度提升了5个百分点以上,证明了其有效性和通用性。此外,SeeCo作为即插即用框架,易于集成到不同的OVSS模型中。

🎯 应用场景

该研究成果可应用于智慧城市建设、环境监测、灾害评估等领域。通过开放词汇语义分割技术,可以自动识别遥感图像中的各种地物类型,为城市规划、环境保护和灾害救援提供决策支持。未来,该技术有望与无人机、卫星等平台结合,实现实时、高效的遥感数据分析。

📄 摘要(原文)

Open-vocabulary semantic segmentation (OVSS) in remote sensing images is a promising task that employs textual descriptions for identifying undefined land cover categories. Despite notable advances, existing methods typically employ a static inference paradigm, overlooking the distinct distribution of each scene, resulting in semantic ambiguity in diverse land covers and incomplete foreground activation. Motivated by this, we propose Seeking Consensus, termed SeeCo, a plug-and-play framework to boost the performance of training-free OVSS models in remote sensing images, which recalibrates arbitrary OVSS models on-the-fly by seeking dual consensus: geometric consensus learning (GCL) through multi-view consistent observations and semantic consensus learning (SCL) via textual description adaptive calibration, which assists collaborative recalibration of visual and textual semantics. The two consensus are injected via an online consensus injector (OCI), effectively alleviating the under-activation and semantic bias. SeeCo requires no specific training process, yet recalibrates semantic-geometric alignment for each unique scene during inference. Extensive experiments on eight remote sensing OVSS benchmarks show consistent gains, proving its effectiveness and universality.