MM-OVSeg:Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing

📄 arXiv: 2603.17528v1 📥 PDF

作者: Yimin Wei, Aoran Xiao, Hongruixuan Chen, Junshi Xia, Naoto Yokoya

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

提出MM-OVSeg,用于恶劣天气下遥感影像的多模态开放词汇分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感影像 开放词汇分割 多模态融合 光学影像 SAR影像 跨模态学习 恶劣天气

📋 核心要点

  1. 现有遥感开放词汇分割方法在多云或雾霾等恶劣天气下性能显著下降,限制了其应用。
  2. MM-OVSeg框架融合光学和SAR数据,利用光学图像的光谱信息和SAR数据的穿云能力,提升分割鲁棒性。
  3. 实验结果表明,MM-OVSeg在多种云层条件下表现出优越的鲁棒性和泛化能力,性能显著提升。

📝 摘要(中文)

开放词汇分割使得能够从开放的文本类别集中进行像素级识别,从而实现超越固定类别的泛化。尽管在遥感领域具有巨大的潜力,但该领域的研究进展主要局限于晴空光学数据,并且在多云或雾霾污染的条件下表现不佳。我们提出了MM-OVSeg,一个多模态光学-SAR融合框架,用于在不利天气条件下实现鲁棒的开放词汇分割。MM-OVSeg利用了两种模态的互补优势——光学图像提供丰富的光谱语义,而合成孔径雷达(SAR)提供穿透云层的结构线索。为了解决跨模态域的差异以及当前视觉-语言模型有限的密集预测能力,我们提出了两个关键设计:用于多传感器表示对齐的跨模态统一过程,以及一个双编码器融合模块,该模块集成了来自多个视觉基础模型的分层特征,用于文本对齐的多模态分割。大量的实验表明,MM-OVSeg在各种云条件下实现了卓越的鲁棒性和泛化能力。源代码和数据集已公开。

🔬 方法详解

问题定义:论文旨在解决遥感图像在恶劣天气条件下的开放词汇分割问题。现有的开放词汇分割方法主要依赖于光学图像,在云层遮挡或雾霾影响下,图像质量严重下降,导致分割精度大幅降低。因此,如何在恶劣天气下实现鲁棒且准确的遥感图像开放词汇分割是一个重要的挑战。

核心思路:论文的核心思路是利用光学图像和SAR图像的互补特性。光学图像提供丰富的光谱信息,而SAR图像具有穿透云层的能力,能够提供地物的结构信息。通过融合这两种模态的信息,可以克服单一模态在恶劣天气下的局限性,提高分割的鲁棒性。此外,论文还考虑了跨模态的域差异,并设计了相应的对齐策略。

技术框架:MM-OVSeg框架主要包含以下几个模块:1) 特征提取模块:分别使用视觉基础模型(例如CLIP)提取光学图像和SAR图像的特征。2) 跨模态统一模块:用于对齐光学图像和SAR图像的特征表示,减小跨模态的域差异。3) 双编码器融合模块:将光学图像和SAR图像的特征进行融合,得到多模态的特征表示。4) 分割头:利用融合后的特征进行像素级别的开放词汇分割。

关键创新:论文的关键创新在于提出了一个多模态融合框架,能够有效地利用光学图像和SAR图像的互补信息,从而在恶劣天气条件下实现鲁棒的开放词汇分割。此外,论文还设计了跨模态统一模块,用于减小跨模态的域差异,以及双编码器融合模块,用于有效地融合多模态特征。

关键设计:跨模态统一模块可能采用了对比学习或对抗学习等方法,用于对齐光学图像和SAR图像的特征表示。双编码器融合模块可能采用了注意力机制或门控机制等方法,用于自适应地融合不同模态的特征。损失函数可能包括分割损失、对比损失或对抗损失等,用于优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MM-OVSeg在多种云层条件下进行了实验,结果表明,该方法能够显著提高开放词汇分割的精度和鲁棒性。与现有的单模态方法相比,MM-OVSeg在恶劣天气条件下的性能提升尤为明显。具体性能数据(例如mIoU)和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于灾害监测、环境监测、城市规划等领域。例如,在洪水灾害发生时,可以利用该方法快速准确地分割出受灾区域,为救援工作提供支持。在环境监测中,可以用于识别和分割不同类型的地物,例如森林、农田、水体等,为环境保护提供数据支持。未来,该技术有望与更多遥感数据源结合,实现更广泛的应用。

📄 摘要(原文)

Open-vocabulary segmentation enables pixel-level recognition from an open set of textual categories, allowing generalization beyond fixed classes. Despite great potential in remote sensing, progress in this area remains largely limited to clear-sky optical data and struggles under cloudy or haze-contaminated conditions. We present MM-OVSeg, a multimodal Optical-SAR fusion framework for resilient open-vocabulary segmentation under adverse weather conditions. MM-OVSeg leverages the complementary strengths of the two modalities--optical imagery provides rich spectral semantics, while synthetic aperture radar (SAR) offers cloud-penetrating structural cues. To address the cross-modal domain gap and the limited dense prediction capability of current vision-language models, we propose two key designs: a cross-modal unification process for multi-sensor representation alignment, and a dual-encoder fusion module that integrates hierarchical features from multiple vision foundation models for text-aligned multimodal segmentation. Extensive experiments demonstrate that MM-OVSeg achieves superior robustness and generalization across diverse cloud conditions. The source dataset and code are available here.