On the Generalizability of Foundation Models for Crop Type Mapping

作者: Yi-Chia Chang, Adam J. Stewart, Favyen Bastani, Piper Wolters, Shreya Kannan, George R. Huber, Jingtong Wang, Arindam Banerjee

分类: cs.CV, cs.LG

发布日期: 2024-09-14 (更新: 2025-05-20)

备注: Accepted to IEEE IGARSS 2025. The final version will appear in the Proceedings of the IEEE International Geoscience and Remote Sensing Symposium (IGARSS) 2025

💡 一句话要点

评估遥感Foundation Model在作物类型mapping中的泛化能力与地理偏差

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感影像 Foundation Model 作物分类 泛化能力 地理偏差

📋 核心要点

遥感Foundation Model在地理位置上的泛化能力不足，尤其是在数据匮乏的发展中国家，存在潜在的地理偏差问题。
通过在五大洲的作物分类数据集上评估现有遥感Foundation Model，分析其在不同地理区域的迁移学习能力。
实验结果表明，针对特定卫星数据（Sentinel-2）预训练的模型优于通用模型，并量化了缓解类别不平衡所需的标注数据量。

📝 摘要（中文）

本文评估了基于自监督学习预训练的Foundation Model在作物类型mapping中的泛化能力，尤其关注其在不同地理位置的表现。研究考察了三个流行的遥感Foundation Model，即SSL4EO-S12、SatlasPretrain和ImageNet，在五大洲的五个作物分类数据集上的性能。结果表明，专门为Sentinel-2设计的预训练权重（如SSL4EO-S12）优于通用的预训练权重（如ImageNet）。研究还发现，虽然仅需100个标注图像即可获得较高的总体准确率，但需要900个图像才能缓解类别不平衡并提高平均准确率。

🔬 方法详解

问题定义：论文旨在解决遥感领域Foundation Model在作物类型mapping任务中，跨地理位置泛化能力不足的问题。现有方法在数据丰富的地区表现良好，但在数据匮乏的地区，尤其是在发展中国家，性能显著下降，存在明显的地理偏差。这限制了这些模型在全球范围内的应用。

核心思路：论文的核心思路是通过在多个大洲的作物分类数据集上，系统地评估现有遥感Foundation Model的性能，从而揭示其泛化能力的局限性以及潜在的地理偏差。通过对比不同预训练策略的模型，分析哪些因素对模型的泛化能力影响最大。

技术框架：整体框架包括以下几个主要步骤：1) 选择三个具有代表性的遥感Foundation Model：SSL4EO-S12、SatlasPretrain和ImageNet。2) 收集来自五大洲的五个作物分类数据集。3) 使用这些模型在各个数据集上进行作物分类实验。4) 分析实验结果，评估模型的泛化能力和地理偏差。5) 研究不同数量的标注数据对模型性能的影响。

关键创新：论文的关键创新在于对遥感Foundation Model的地理泛化能力进行了系统的评估，并量化了不同因素（如预训练策略、标注数据量）对模型性能的影响。此外，论文还揭示了现有模型在数据匮乏地区存在的地理偏差问题，为未来遥感Foundation Model的设计提供了重要的指导。

关键设计：论文的关键设计包括：1) 选择具有代表性的遥感Foundation Model，覆盖了不同预训练策略。2) 收集来自不同地理位置的数据集，以评估模型的泛化能力。3) 使用标准的作物分类评估指标，如总体准确率和平均准确率，来量化模型的性能。4) 通过改变标注数据的数量，研究其对模型性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，专门为Sentinel-2设计的预训练模型（SSL4EO-S12）在作物分类任务中优于通用的预训练模型（ImageNet）。此外，研究发现，虽然仅需100个标注图像即可获得较高的总体准确率，但需要900个图像才能缓解类别不平衡并提高平均准确率。这些发现为遥感Foundation Model的应用提供了重要的实践指导。

🎯 应用场景

该研究成果可应用于精准农业、自然灾害监测与响应等领域。通过了解遥感Foundation Model的泛化能力，可以更好地利用这些模型进行全球范围内的作物类型mapping，从而提高农业生产效率，并为应对气候变化和粮食安全挑战提供支持。未来的研究可以进一步探索如何设计更具泛化能力的遥感Foundation Model，以克服地理偏差问题。

📄 摘要（原文）

Foundation models pre-trained using self-supervised learning have shown powerful transfer learning capabilities on various downstream tasks, including language understanding, text generation, and image recognition. The Earth observation (EO) field has produced several foundation models pre-trained directly on multispectral satellite imagery for applications like precision agriculture, wildfire and drought monitoring, and natural disaster response. However, few studies have investigated the ability of these models to generalize to new geographic locations, and potential concerns of geospatial bias -- models trained on data-rich developed nations not transferring well to data-scarce developing nations -- remain. We evaluate three popular EO foundation models, SSL4EO-S12, SatlasPretrain, and ImageNet, on five crop classification datasets across five continents. Results show that pre-trained weights designed explicitly for Sentinel-2, such as SSL4EO-S12, outperform general pre-trained weights like ImageNet. While only 100 labeled images are sufficient for achieving high overall accuracy, 900 images are required to mitigate class imbalance and improve average accuracy.

On the Generalizability of Foundation Models for Crop Type Mapping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理