CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation

📄 arXiv: 2603.12008v1 📥 PDF

作者: Ziqi Ye, Ziyang Gong, Ning Liao, Xiaoxing Hu, Di Wang, Hongruixuan Chen, Chen Huang, Yiguo He, Yuru Jia, Xiaoxing Wang, Haipeng Wang, Xue Yang, Junchi Yan

分类: cs.CV

发布日期: 2026-03-12

备注: 26 pages, 15 figures


💡 一句话要点

提出CrossEarth-SAR,一个十亿级SAR地理空间基础模型,用于领域泛化语义分割。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成孔径雷达 语义分割 领域泛化 混合专家模型 遥感图像

📋 核心要点

  1. SAR图像语义分割面临跨传感器和区域的领域偏移挑战,现有方法泛化能力不足。
  2. CrossEarth-SAR提出物理引导的稀疏混合专家架构,并结合物理描述符,提升跨领域泛化能力。
  3. CrossEarth-SAR在20个基准测试中达到SOTA,在多差距迁移下,部分基准上mIoU提升超过10%。

📝 摘要(中文)

合成孔径雷达(SAR)实现了全球全天候的地球观测。然而,由于不同的成像机制,传感器和区域之间的领域偏移严重阻碍了其语义泛化能力。为了解决这个问题,我们提出了CrossEarth-SAR,这是第一个建立在新型物理引导的稀疏混合专家(MoE)架构上的十亿级SAR视觉基础模型,该架构结合了物理描述符,专门为跨领域语义分割而设计。为了促进大规模预训练,我们开发了CrossEarth-SAR-200K,这是一个统一了公共和私有SAR图像的弱监督和全监督数据集。我们还引入了一个包含8个不同领域差距的22个子基准的基准测试套件,为SAR图像的领域泛化语义分割建立了第一个统一标准。大量的实验表明,CrossEarth-SAR在20个基准测试中取得了最先进的结果,在多差距迁移下,在一些基准测试中超过了以前的方法10%以上的mIoU。所有代码、基准和数据集都将公开。

🔬 方法详解

问题定义:论文旨在解决合成孔径雷达(SAR)图像语义分割中,由于不同传感器和区域成像机制差异导致的领域偏移问题。现有方法在面对跨领域数据时,泛化能力显著下降,难以保证分割精度。

核心思路:论文的核心思路是构建一个大规模的SAR视觉基础模型,通过物理引导的稀疏混合专家(MoE)架构,学习不同领域的SAR图像特征,并利用物理描述符显式地建模领域差异,从而提高模型的跨领域泛化能力。

技术框架:CrossEarth-SAR的整体框架包括以下几个主要部分:1) 大规模SAR数据集CrossEarth-SAR-200K的构建,用于预训练;2) 物理引导的稀疏混合专家(MoE)架构,用于学习领域不变特征;3) 物理描述符的引入,用于显式建模领域差异;4) 领域泛化语义分割任务的微调。

关键创新:该论文最重要的技术创新点在于提出了物理引导的稀疏混合专家(MoE)架构,并将其应用于SAR图像的领域泛化语义分割。与传统的MoE架构不同,该架构利用物理描述符来指导专家的选择,从而更好地适应不同领域的SAR图像特征。此外,大规模数据集的构建和统一基准的提出也为该领域的研究提供了重要支撑。

关键设计:在网络结构方面,采用了稀疏MoE架构,每个专家负责学习特定领域的特征。物理描述符被用作门控网络的输入,用于选择合适的专家。损失函数方面,采用了交叉熵损失函数和一致性损失函数,以提高模型的分割精度和鲁棒性。数据集方面,CrossEarth-SAR-200K包含了弱监督和全监督数据,并进行了精细的标注。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CrossEarth-SAR在20个基准测试中取得了最先进的结果,显著优于现有方法。在多差距迁移场景下,CrossEarth-SAR在一些基准测试中超过了以前的方法10%以上的mIoU。这些实验结果充分证明了CrossEarth-SAR在领域泛化语义分割方面的优越性能。

🎯 应用场景

该研究成果可广泛应用于遥感图像分析、地理信息系统、环境监测、灾害评估、城市规划等领域。通过提高SAR图像语义分割的泛化能力,可以更准确地提取地物信息,为相关应用提供可靠的数据支持,具有重要的实际价值和广阔的应用前景。

📄 摘要(原文)

Synthetic Aperture Radar (SAR) enables global, all-weather earth observation. However, owing to diverse imaging mechanisms, domain shifts across sensors and regions severely hinder its semantic generalization. To address this, we present CrossEarth-SAR, the first billion-scale SAR vision foundation model built upon a novel physics-guided sparse mixture-of-experts (MoE) architecture incorporating physical descriptors, explicitly designed for cross-domain semantic segmentation. To facilitate large-scale pre-training, we develop CrossEarth-SAR-200K, a weakly and fully supervised dataset that unifies public and private SAR imagery. We also introduce a benchmark suite comprising 22 sub-benchmarks across 8 distinct domain gaps, establishing the first unified standard for domain generalization semantic segmentation on SAR imagery. Extensive experiments demonstrate that CrossEarth-SAR achieves state-of-the-art results on 20 benchmarks, surpassing previous methods by over 10\% mIoU on some benchmarks under multi-gap transfer. All code, benchmark and datasets will be publicly available.