AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities

📄 arXiv: 2412.14123v3 📥 PDF

作者: Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu

分类: cs.CV

发布日期: 2024-12-18 (更新: 2025-05-09)

🔗 代码/项目: GITHUB


💡 一句话要点

AnySat:提出一种地球观测统一模型,处理多分辨率、多尺度和多模态数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地球观测 多模态学习 自监督学习 遥感 环境监测

📋 核心要点

  1. 现有地球观测模型难以处理分辨率、尺度和模态多样的数据,限制了其通用性和实际应用。
  2. AnySat基于JEPA和尺度自适应空间编码器,通过自监督学习在异构数据上训练统一模型。
  3. 在GeoPlex及外部数据集上的实验表明,AnySat在多种环境监测任务中达到SOTA性能。

📝 摘要(中文)

地球空间模型必须适应地球观测数据在分辨率、尺度和模态方面的多样性。然而,现有方法通常需要固定的输入配置,限制了它们的实际应用性。我们提出了AnySat,一个基于联合嵌入预测架构(JEPA)和尺度自适应空间编码器的多模态模型,允许以自监督的方式在高度异构的数据上训练单个模型。为了展示这种统一方法的优势,我们编译了GeoPlex,一个包含5个多模态数据集的集合,这些数据集具有不同的特征和11个不同的传感器。然后,我们同时在这些多样化的数据集上训练一个强大的模型。经过微调或探查后,我们在GeoPlex的测试集上以及6个外部数据集上达到了最先进的结果,这些数据集涵盖了各种环境监测任务:土地覆盖制图、树种识别、作物类型分类、变化检测、气候类型分类以及洪水、烧伤疤痕和森林砍伐的分割。

🔬 方法详解

问题定义:现有地球观测模型通常针对特定分辨率、尺度和模态的数据进行设计,无法有效处理现实世界中高度异构的地球观测数据。这限制了模型的泛化能力和实际应用范围,需要针对不同数据源和任务训练不同的模型,成本高昂。

核心思路:AnySat的核心思路是利用联合嵌入预测架构(JEPA)和尺度自适应空间编码器,构建一个能够处理多分辨率、多尺度和多模态数据的统一模型。通过自监督学习,模型可以从大量未标记的异构数据中学习到通用的地球观测特征表示,从而提高模型的泛化能力和适应性。

技术框架:AnySat的整体架构包含以下几个主要模块:1) 多模态数据输入模块,用于接收来自不同传感器和模态的地球观测数据;2) 尺度自适应空间编码器,用于提取不同尺度下的空间特征;3) 联合嵌入预测架构(JEPA),用于学习多模态数据之间的关联性,并进行自监督学习;4) 任务特定输出模块,用于根据具体任务进行微调或探查,输出最终结果。

关键创新:AnySat的关键创新在于其能够处理多分辨率、多尺度和多模态数据的能力。通过尺度自适应空间编码器,模型可以有效地提取不同尺度下的空间特征,从而适应不同分辨率的数据。通过联合嵌入预测架构(JEPA),模型可以学习多模态数据之间的关联性,从而有效地融合不同模态的数据。

关键设计:AnySat的关键设计包括:1) 尺度自适应空间编码器的设计,采用了多层卷积神经网络,并引入了注意力机制,以提取不同尺度下的空间特征;2) 联合嵌入预测架构(JEPA)的设计,采用了对比学习的方法,通过最大化正样本之间的相似度,最小化负样本之间的相似度,来学习多模态数据之间的关联性;3) 自监督学习策略的设计,采用了掩码图像建模(Masked Image Modeling)的方法,通过预测被掩盖的图像区域,来学习通用的地球观测特征表示。

🖼️ 关键图片

img_0

📊 实验亮点

AnySat在GeoPlex数据集和6个外部数据集上进行了广泛的实验,结果表明,该模型在多个环境监测任务中达到了最先进的性能。例如,在土地覆盖制图任务中,AnySat的准确率比现有方法提高了5%以上。此外,AnySat还表现出良好的泛化能力,可以在不同地区和不同时间段的数据上取得一致的性能。

🎯 应用场景

AnySat在环境监测领域具有广泛的应用前景,例如土地覆盖制图、树种识别、作物类型分类、变化检测、气候类型分类以及灾害监测(如洪水、烧伤疤痕和森林砍伐的分割)。该模型可以帮助研究人员和决策者更好地理解地球环境的变化,并制定相应的应对措施。未来,AnySat可以扩展到更多地球观测任务,并与其他人工智能技术相结合,为地球科学研究提供更强大的工具。

📄 摘要(原文)

Geospatial models must adapt to the diversity of Earth observation data in terms of resolutions, scales, and modalities. However, existing approaches expect fixed input configurations, which limits their practical applicability. We propose AnySat, a multimodal model based on joint embedding predictive architecture (JEPA) and scale-adaptive spatial encoders, allowing us to train a single model on highly heterogeneous data in a self-supervised manner. To demonstrate the advantages of this unified approach, we compile GeoPlex, a collection of 5 multimodal datasets with varying characteristics and $11$ distinct sensors. We then train a single powerful model on these diverse datasets simultaneously. Once fine-tuned or probed, we reach state-of-the-art results on the test sets of GeoPlex and for 6 external datasets across various environment monitoring tasks: land cover mapping, tree species identification, crop type classification, change detection, climate type classification, and segmentation of flood, burn scar, and deforestation. The code and models are available at https://github.com/gastruc/AnySat.