Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition
作者: Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga, Max Mehltretter, Franz Rottensteiner
分类: cs.CV
发布日期: 2026-02-27
备注: Published in the proceedings of the British Machine Vision Conference Workshops 2025
💡 一句话要点
提出ReSeg-CLIP以解决遥感数据的开放词汇语义分割问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇 语义分割 遥感数据 视觉语言模型 模型组合 自注意力机制 分层掩码 性能提升
📋 核心要点
- 现有的视觉语言模型在遥感数据的语义分割中存在自注意力层交互不当的问题,导致性能下降。
- 本文提出的ReSeg-CLIP通过分层掩码约束自注意力交互,并采用模型组合方法提升表示质量。
- 该方法在三个遥感基准测试中实现了最先进的结果,展示了其在开放词汇语义分割中的有效性。
📝 摘要(中文)
本文提出了一种新的训练无关的开放词汇语义分割方法ReSeg-CLIP,专门针对遥感数据。为了解决视觉语言模型(如CLIP)在语义分割中由于自注意力层内不当交互而引发的问题,本文引入了一种分层方案,利用由SAM生成的掩码在多个尺度上约束交互。同时,我们还提出了一种模型组合方法,通过对多个遥感特定的CLIP变体参数进行平均,利用新的加权方案评估不同文本提示下的表示质量。我们的方法在三个遥感基准测试中实现了最先进的结果,无需额外训练。
🔬 方法详解
问题定义:本文旨在解决遥感数据中的开放词汇语义分割问题,现有方法在自注意力层的交互中存在不当情况,影响了分割效果。
核心思路:ReSeg-CLIP通过引入分层掩码来约束自注意力层的交互,确保在多个尺度上进行有效的信息整合,同时采用模型组合方法提升表示能力。
技术框架:该方法的整体架构包括两个主要模块:首先是利用SAM生成的分层掩码来约束自注意力交互,其次是对多个RS特定的CLIP变体进行参数平均,结合新的加权方案进行模型组合。
关键创新:最重要的创新在于引入了分层掩码机制和模型组合策略,使得模型在不进行额外训练的情况下,能够有效提升语义分割性能。
关键设计:在参数设置上,采用了新的加权方案来评估不同文本提示下的表示质量,确保模型组合的有效性,同时保持了模型的灵活性和适应性。
🖼️ 关键图片
📊 实验亮点
在三个遥感基准测试中,ReSeg-CLIP方法实现了最先进的结果,具体性能数据表明,相较于传统方法,分割精度提升了显著的幅度,展示了其在开放词汇语义分割任务中的优越性。
🎯 应用场景
该研究具有广泛的应用潜力,特别是在遥感图像分析、环境监测和城市规划等领域。通过提高语义分割的准确性,ReSeg-CLIP可以帮助研究人员和决策者更好地理解和利用遥感数据,从而推动相关领域的发展。
📄 摘要(原文)
In this paper, we propose ReSeg-CLIP, a new training-free Open-Vocabulary Semantic Segmentation method for remote sensing data. To compensate for the problems of vision language models, such as CLIP in semantic segmentation caused by inappropriate interactions within the self-attention layers, we introduce a hierarchical scheme utilizing masks generated by SAM to constrain the interactions at multiple scales. We also present a model composition approach that averages the parameters of multiple RS-specific CLIP variants, taking advantage of a new weighting scheme that evaluates representational quality using varying text prompts. Our method achieves state-of-the-art results across three RS benchmarks without additional training.