MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning

📄 arXiv: 2405.02771v2 📥 PDF

作者: Vishal Nedungadi, Ankit Kariryaa, Stefan Oehmcke, Serge Belongie, Christian Igel, Nico Lang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-05-04 (更新: 2024-07-29)

备注: Accepted for ECCV 2024. Data and code: https://vishalned.github.io/mmearth Update arXiv v2 (ECCV): 1. Dataset fix: Removed duplicates and corrected ERA5 yearly statistics. 2. Data augmentation fix: Random crops are now aligned. 3. Test metrics fix: Metrics are now overall instead of mini-batch averages, matching GEO-Bench metrics. 4. Pretrained on MMEarth v001 & evaluated on GEO-Bench v1.0


💡 一句话要点

MMEarth:面向地理空间表征学习的多模态预训练任务探索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 地球观测 多模态学习 预训练 掩码自编码器 表征学习 遥感图像 自监督学习

📋 核心要点

  1. 地球观测数据丰富但标注数据匮乏,限制了相关应用发展,因此需要有效的无监督表征学习方法。
  2. MMEarth利用地球观测数据天然的多模态配对特性,构建大规模多模态预训练数据集,并提出MP-MAE方法。
  3. 实验表明,MP-MAE优于ImageNet和领域特定数据预训练的MAE,提升了下游任务的性能和效率。

📝 摘要(中文)

本文提出了MMEarth,一个大规模的多模态预训练数据集,旨在解决地球观测(EO)领域中缺乏标注数据的问题。EO数据天然具备基于地理位置和时间自动配对不同模态和传感器数据的能力,几乎无需人工干预。利用包含120万个地理位置的数据集,本文提出了一种多预训练任务掩码自编码器(MP-MAE)方法,用于学习光学卫星图像的通用表征。该方法基于ConvNeXt V2架构,一个全卷积的掩码自编码器(MAE)。通过一系列多模态预训练任务,证明了MP-MAE方法优于在ImageNet上预训练的MAE以及在特定领域卫星图像上预训练的MAE。这在包括图像分类和语义分割在内的多个下游任务中得到了验证。研究发现,与仅在光学卫星图像上预训练相比,使用多模态预训练任务显著提高了线性探测性能,并提高了标签效率和参数效率,这对于全球规模的应用至关重要。

🔬 方法详解

问题定义:地球观测领域存在大量未标注数据,而许多重要应用缺乏足够的标注训练数据。现有的预训练方法,如在ImageNet或领域特定数据集上预训练,可能无法充分利用地球观测数据中蕴含的多模态信息,导致下游任务性能受限。

核心思路:论文的核心思路是利用地球观测数据固有的多模态特性,即不同传感器和模态的数据可以基于地理位置和时间自动配对。通过设计一系列多模态预训练任务,让模型学习不同模态之间的关联性,从而获得更具泛化能力的图像表征。

技术框架:整体框架包括两个主要部分:首先,构建一个大规模的多模态数据集MMEarth,包含来自不同传感器和模态的地球观测数据。其次,提出Multi-Pretext Masked Autoencoder (MP-MAE) 模型,该模型基于ConvNeXt V2架构,并采用多个预训练任务,例如图像重建、模态匹配等。模型首先对输入图像进行masking,然后通过encoder提取特征,再通过decoder重建图像或预测其他模态的信息。

关键创新:关键创新在于利用多模态信息进行预训练。传统的MAE通常只使用单模态数据进行预训练,而MP-MAE则利用不同模态之间的关联性,设计了多个预训练任务,从而使模型能够学习到更丰富的图像表征。这种方法能够更好地利用地球观测数据的特性,提高模型的泛化能力。

关键设计:MP-MAE的关键设计包括:1) 基于ConvNeXt V2的架构,充分利用卷积神经网络的优势;2) 采用掩码自编码器(MAE)的框架,通过重建被mask的图像来学习表征;3) 设计多个多模态预训练任务,例如图像重建、模态匹配等,以利用不同模态之间的关联性;4) 损失函数结合了图像重建损失和模态匹配损失,以优化模型的学习过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MP-MAE在多个下游任务上优于ImageNet预训练和领域特定数据预训练的MAE。例如,在线性探测任务中,MP-MAE取得了显著的性能提升。此外,MP-MAE还表现出更好的标签效率和参数效率,这意味着在相同性能下,MP-MAE可以使用更少的标注数据和更少的参数,这对于全球规模的应用至关重要。

🎯 应用场景

该研究成果可广泛应用于遥感图像分析、土地利用分类、环境监测、灾害评估等领域。通过提升模型在少量标注数据下的性能,可以降低对大规模标注数据的依赖,加速相关应用的落地。未来,该方法有望扩展到更多地球观测任务,例如变化检测、目标识别等,为地球科学研究提供更强大的技术支持。

📄 摘要(原文)

The volume of unlabelled Earth observation (EO) data is huge, but many important applications lack labelled training data. However, EO data offers the unique opportunity to pair data from different modalities and sensors automatically based on geographic location and time, at virtually no human labor cost. We seize this opportunity to create MMEarth, a diverse multi-modal pretraining dataset at global scale. Using this new corpus of 1.2 million locations, we propose a Multi-Pretext Masked Autoencoder (MP-MAE) approach to learn general-purpose representations for optical satellite images. Our approach builds on the ConvNeXt V2 architecture, a fully convolutional masked autoencoder (MAE). Drawing upon a suite of multi-modal pretext tasks, we demonstrate that our MP-MAE approach outperforms both MAEs pretrained on ImageNet and MAEs pretrained on domain-specific satellite images. This is shown on several downstream tasks including image classification and semantic segmentation. We find that pretraining with multi-modal pretext tasks notably improves the linear probing performance compared to pretraining on optical satellite images only. This also leads to better label efficiency and parameter efficiency which are crucial aspects in global scale applications.