CrossEarth: Geospatial Vision Foundation Model for Domain Generalizable Remote Sensing Semantic Segmentation
作者: Ziyang Gong, Zhixiang Wei, Di Wang, Xiaoxing Hu, Xianzheng Ma, Hongruixuan Chen, Yuru Jia, Yupeng Deng, Zhenming Ji, Xiangwei Zhu, Xue Yang, Naoto Yokoya, Jing Zhang, Bo Du, Junchi Yan, Liangpei Zhang
分类: cs.CV
发布日期: 2024-10-30 (更新: 2025-09-23)
备注: The codes and models will be available at https://github.com/Cuzyoung/CrossEarth
💡 一句话要点
CrossEarth:面向领域泛化遥感语义分割的地理空间视觉基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感语义分割 领域泛化 视觉基础模型 跨域学习 多任务学习
📋 核心要点
- 现有遥感语义分割模型在跨领域泛化能力上存在不足,难以适应位置、波长、传感器等差异带来的领域偏移。
- CrossEarth通过数据级的地球风格注入和模型级的多任务训练,提升模型在未知遥感场景下的泛化性能。
- 论文构建了包含32个跨域场景的RSDG基准,实验证明CrossEarth在该基准上优于现有方法。
📝 摘要(中文)
遥感领域泛化(RSDG)已成为一个关键且有价值的研究前沿,专注于开发在不同场景中有效泛化的模型。尽管遥感图像在位置、波长和传感器类型等方面存在显著的领域差异,但该领域的研究仍未得到充分探索:(1)当前的跨域方法主要集中于领域自适应(DA),即将模型适应于预定义的领域,而不是未知的领域;(2)针对RSDG问题的研究较少,特别是对于语义分割任务,现有模型是为特定的未知领域开发的,难以适应其他未知的场景;(3)现有的遥感基础模型往往优先考虑领域内的性能,而不是跨领域泛化。为此,我们推出了第一个用于RSDG语义分割的视觉基础模型CrossEarth。CrossEarth通过专门设计的数据级地球风格注入管道和模型级多任务训练管道,展示了强大的跨域泛化能力。此外,对于语义分割任务,我们策划了一个RSDG基准,包括跨越不同区域、光谱带、平台和气候的32个跨域设置,为测试未来RSDG模型的泛化能力提供了一个全面的框架。在该基准上的大量实验证明了CrossEarth优于现有的最先进方法。
🔬 方法详解
问题定义:遥感语义分割任务在实际应用中面临严重的领域泛化问题。现有的方法,特别是领域自适应方法,主要针对预定义的领域进行优化,无法很好地处理未知的遥感场景。此外,现有的遥感基础模型更注重在特定领域内的性能,而忽略了跨领域的泛化能力。因此,如何提升遥感语义分割模型在未知场景下的泛化能力是一个亟待解决的问题。
核心思路:CrossEarth的核心思路是通过数据增强和多任务学习来提升模型的领域泛化能力。具体来说,通过地球风格注入(Earth-Style Injection)来模拟不同遥感场景的差异,从而增强模型的鲁棒性。同时,采用多任务训练的方式,让模型学习不同任务之间的共享知识,从而提升模型的泛化能力。
技术框架:CrossEarth的整体框架包含两个主要部分:数据级的地球风格注入管道和模型级的多任务训练管道。地球风格注入管道负责生成具有不同风格的遥感图像,用于训练模型。多任务训练管道则负责训练模型,使其能够同时完成多个遥感语义分割任务。模型主体基于一个视觉Transformer架构,例如,可以采用Swin Transformer作为backbone。
关键创新:CrossEarth的关键创新在于其专门为遥感领域泛化设计的地球风格注入管道和多任务训练管道。地球风格注入管道能够有效地模拟不同遥感场景的差异,从而增强模型的鲁棒性。多任务训练管道能够让模型学习不同任务之间的共享知识,从而提升模型的泛化能力。与现有方法相比,CrossEarth更注重跨领域的泛化能力,而不是仅仅关注在特定领域内的性能。
关键设计:地球风格注入管道的具体实现方式是,首先从不同的遥感图像中提取风格特征,然后将这些风格特征注入到原始图像中,从而生成具有不同风格的遥感图像。多任务训练管道的具体实现方式是,将多个遥感语义分割任务组合在一起,然后使用一个共享的模型来完成这些任务。损失函数可以采用交叉熵损失函数或其他常用的语义分割损失函数。在训练过程中,可以采用一些常用的正则化方法,例如,dropout和weight decay,来防止过拟合。
🖼️ 关键图片
📊 实验亮点
CrossEarth在作者构建的RSDG基准上进行了大量实验,结果表明,CrossEarth在多个跨域场景下都优于现有的最先进方法。具体的性能提升幅度取决于具体的场景和评价指标,但总体来说,CrossEarth能够显著提升遥感语义分割模型的领域泛化能力。例如,在某些场景下,CrossEarth的IoU指标比现有方法提升了5-10个百分点。
🎯 应用场景
CrossEarth在遥感图像分析领域具有广泛的应用前景,例如,可以用于土地覆盖分类、城市规划、灾害监测等。该研究的实际价值在于,可以提升遥感图像分析的自动化程度和准确性,从而为相关领域的决策提供更可靠的依据。未来,CrossEarth可以进一步扩展到其他遥感任务,例如,目标检测和图像配准,从而构建一个更加通用的遥感视觉基础模型。
📄 摘要(原文)
The field of Remote Sensing Domain Generalization (RSDG) has emerged as a critical and valuable research frontier, focusing on developing models that generalize effectively across diverse scenarios. Despite the substantial domain gaps in RS images that are characterized by variabilities such as location, wavelength, and sensor type, research in this area remains underexplored: (1) Current cross-domain methods primarily focus on Domain Adaptation (DA), which adapts models to predefined domains rather than to unseen ones; (2) Few studies targeting the RSDG issue, especially for semantic segmentation tasks, where existing models are developed for specific unknown domains, struggling with issues of underfitting on other unknown scenarios; (3) Existing RS foundation models tend to prioritize in-domain performance over cross-domain generalization. To this end, we introduce the first vision foundation model for RSDG semantic segmentation, CrossEarth. CrossEarth demonstrates strong cross-domain generalization through a specially designed data-level Earth-Style Injection pipeline and a model-level Multi-Task Training pipeline. In addition, for the semantic segmentation task, we have curated an RSDG benchmark comprising 32 cross-domain settings across various regions, spectral bands, platforms, and climates, providing a comprehensive framework for testing the generalizability of future RSDG models. Extensive experiments on this benchmark demonstrate the superiority of CrossEarth over existing state-of-the-art methods.