SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
作者: Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li
分类: cs.CV
发布日期: 2023-12-15 (更新: 2024-03-22)
备注: Accepted by CVPR2024
💡 一句话要点
SkySense:面向地球观测图像通用理解的多模态遥感基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感基础模型 多模态学习 时空编码 对比学习 地理上下文 地球观测 深度学习
📋 核心要点
- 现有的遥感基础模型主要集中于单一模态,缺乏对时序和地理上下文的建模,限制了其在多样化任务中的能力。
- SkySense通过多模态时空编码器,结合多粒度对比学习和地理上下文原型学习,提升遥感图像的表示能力。
- 实验结果表明,SkySense在多个遥感任务上显著优于现有模型,展现出强大的泛化能力和应用潜力。
📝 摘要(中文)
本文提出了SkySense,一个十亿级参数的通用遥感基础模型,它基于一个精心构建的多模态遥感图像数据集进行预训练,该数据集包含2150万个时间序列。SkySense采用了一种分解的多模态时空编码器,将光学和合成孔径雷达(SAR)数据的时间序列作为输入。该编码器通过提出的多粒度对比学习进行预训练,以学习跨不同模态和空间粒度的表示。为了通过地理上下文线索进一步增强遥感图像的表示,引入了地理上下文原型学习,以学习基于遥感图像多模态时空特征的区域感知原型。据我们所知,SkySense是迄今为止最大的多模态遥感基础模型,其模块可以灵活地组合或单独使用,以适应各种任务。在包含7个任务的16个数据集上的全面评估表明,它具有卓越的泛化能力,涵盖了从单模态到多模态、静态到时序、分类到定位等多种场景。SkySense在所有测试场景中都超过了18个最新的遥感基础模型。具体而言,它在平均水平上分别优于最新的模型GFM、SatLas和Scale-MAE 2.76%、3.67%和3.61%。我们将发布预训练权重,以促进未来的研究和地球观测应用。
🔬 方法详解
问题定义:现有遥感基础模型主要关注单一模态数据,忽略了遥感数据中蕴含的时序信息和地理上下文信息,导致模型在复杂遥感任务中的性能受限。这些模型难以有效处理多源遥感数据,例如同时利用光学影像和SAR数据进行地物分类或变化检测。
核心思路:SkySense的核心思路是构建一个能够同时处理多模态遥感数据(光学和SAR)、捕捉时序变化以及利用地理上下文信息的通用遥感基础模型。通过多模态时空编码器学习遥感数据的综合表示,并利用对比学习和原型学习来提升表示的质量和泛化能力。
技术框架:SkySense的整体框架包括以下几个主要模块:1) 多模态时空编码器:用于提取光学和SAR数据时间序列的时空特征。2) 多粒度对比学习:用于学习跨模态和跨空间粒度的表示,增强模型对不同数据源的理解能力。3) 地理上下文原型学习:用于学习区域感知的原型,将地理上下文信息融入到遥感图像的表示中。整个框架通过预训练的方式进行学习,然后在下游任务上进行微调。
关键创新:SkySense的关键创新在于:1) 提出了一个能够同时处理多模态遥感数据和时序信息的时空编码器。2) 引入了多粒度对比学习,能够有效学习跨模态和跨空间粒度的表示。3) 提出了地理上下文原型学习,将地理上下文信息融入到遥感图像的表示中,提升了模型的性能。
关键设计:在多模态时空编码器中,使用了Transformer结构来捕捉时序依赖关系。多粒度对比学习中,设计了不同的对比损失函数来学习跨模态和跨空间粒度的表示。地理上下文原型学习中,使用了聚类算法来生成区域原型,并设计了损失函数来鼓励模型学习与原型相关的表示。
📊 实验亮点
SkySense在16个数据集上的7个遥感任务上进行了全面评估,结果表明其性能显著优于现有的遥感基础模型。例如,SkySense在平均水平上分别优于最新的模型GFM、SatLas和Scale-MAE 2.76%、3.67%和3.61%。这些结果表明SkySense具有强大的泛化能力和应用潜力。
🎯 应用场景
SkySense具有广泛的应用前景,包括但不限于:土地利用分类、农作物监测、自然灾害评估、城市规划、环境监测等。该模型能够有效处理多源遥感数据,并具备强大的泛化能力,可以为各种地球观测应用提供有力支持,并促进相关领域的研究和发展。
📄 摘要(原文)
Prior studies on Remote Sensing Foundation Model (RSFM) reveal immense potential towards a generic model for Earth Observation. Nevertheless, these works primarily focus on a single modality without temporal and geo-context modeling, hampering their capabilities for diverse tasks. In this study, we present SkySense, a generic billion-scale model, pre-trained on a curated multi-modal Remote Sensing Imagery (RSI) dataset with 21.5 million temporal sequences. SkySense incorporates a factorized multi-modal spatiotemporal encoder taking temporal sequences of optical and Synthetic Aperture Radar (SAR) data as input. This encoder is pre-trained by our proposed Multi-Granularity Contrastive Learning to learn representations across different modal and spatial granularities. To further enhance the RSI representations by the geo-context clue, we introduce Geo-Context Prototype Learning to learn region-aware prototypes upon RSI's multi-modal spatiotemporal features. To our best knowledge, SkySense is the largest Multi-Modal RSFM to date, whose modules can be flexibly combined or used individually to accommodate various tasks. It demonstrates remarkable generalization capabilities on a thorough evaluation encompassing 16 datasets over 7 tasks, from single- to multi-modal, static to temporal, and classification to localization. SkySense surpasses 18 recent RSFMs in all test scenarios. Specifically, it outperforms the latest models such as GFM, SatLas and Scale-MAE by a large margin, i.e., 2.76%, 3.67% and 3.61% on average respectively. We will release the pre-trained weights to facilitate future research and Earth Observation applications.