Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining

作者: Yi Wang, Conrad M Albrecht, Xiao Xiang Zhu

分类: cs.CV

发布日期: 2024-05-30 (更新: 2024-09-23)

备注: Accepted by IEEE Transactions on Geoscience and Remote Sensing. 16 pages, 10 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出多标签引导的软对比学习，高效预训练地球观测模型。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 地球观测 自监督学习 对比学习 多标签学习 持续预训练 遥感图像 土地覆盖 视觉基础模型

📋 核心要点

现有地球观测预训练方法未能充分利用土地覆盖数据等免费语义信息和视觉基础模型的知识。
提出多标签引导的软对比学习，利用土地覆盖数据生成软标签，解决对比学习中正样本选择的难题。
通过跨域持续预训练，将视觉基础模型的知识迁移到地球观测领域，显著提升了预训练效率和下游任务性能。

📝 摘要（中文）

本文提出了一种高效的地球观测（EO）预训练方法，该方法利用大规模卫星数据的自监督学习，并结合土地覆盖土地利用产品提供的免费全局语义信息以及视觉基础模型中的知识。该方法通过基于土地覆盖生成的多标签监督优化跨场景软相似性，解决了复杂场景中多正样本和过于严格的正样本匹配问题。此外，本文还探讨了多光谱和SAR图像的跨域持续预训练，从DINOv2等视觉模型构建高效的EO基础模型。通过简单的权重初始化和Siamese掩码策略，即使输入模态不对齐，也能实现出色的持续预训练性能。在不进行大量训练的情况下，本文提出的多光谱和SAR基础模型在11个下游任务中的10个任务中取得了比现有SOTA模型更好的结果。例如，ResNet50/ViT-S在BigEarthNet-10%上的线性探测mAP得分分别为84.8/85.0，优于大多数现有的ViT-L模型；在相同设置下，ViT-B在多光谱和SAR上分别创造了86.8和82.5的新纪录，后者甚至优于许多多光谱模型。

🔬 方法详解

问题定义：现有的地球观测预训练方法通常只关注卫星图像本身，忽略了其他重要的免费资源，例如土地覆盖和土地利用数据，这些数据可以提供全局的语义信息。此外，视觉基础模型（如DINOv2）已经学习了大量的自然图像知识，但如何有效地将这些知识迁移到地球观测领域也是一个挑战。传统的对比学习方法在处理复杂的地球观测场景时，容易出现正样本选择困难和过于严格的正样本匹配问题。

核心思路：本文的核心思路是利用土地覆盖数据生成的多标签信息来指导对比学习过程，从而解决正样本选择的问题。具体来说，将土地覆盖数据作为软标签，用于衡量不同场景之间的相似度，而不是像传统对比学习那样只关注hard positive和hard negative样本。此外，本文还探索了跨域持续预训练的方法，将视觉基础模型的知识迁移到地球观测领域，从而提高预训练的效率和效果。

技术框架：本文提出的方法主要包括两个阶段：软对比学习和跨域持续预训练。在软对比学习阶段，首先使用土地覆盖数据生成多标签信息，然后利用这些多标签信息来计算不同场景之间的软相似度。接着，使用软对比损失函数来优化模型，使得相似的场景在特征空间中更加接近。在跨域持续预训练阶段，首先使用视觉基础模型（如DINOv2）的权重初始化地球观测模型，然后使用Siamese掩码策略来处理多光谱和SAR图像之间的模态差异。最后，使用软对比学习框架对地球观测模型进行微调。

关键创新：本文最重要的技术创新点是提出了多标签引导的软对比学习方法。与传统的对比学习方法相比，该方法可以更好地处理复杂场景中的正样本选择问题，并且可以利用土地覆盖数据提供的全局语义信息。此外，本文还探索了跨域持续预训练的方法，将视觉基础模型的知识迁移到地球观测领域，从而提高了预训练的效率和效果。

关键设计：在软对比学习中，使用土地覆盖数据生成多标签信息，并将其作为软标签用于计算场景之间的相似度。具体来说，使用交叉熵损失函数来衡量预测的相似度与软标签之间的差异。在跨域持续预训练中，使用Siamese掩码策略来处理多光谱和SAR图像之间的模态差异。具体来说，随机mask掉一部分输入图像的通道，从而使得模型能够学习到更加鲁棒的特征表示。

🖼️ 关键图片

📊 实验亮点

实验结果表明，本文提出的方法在多个下游任务中取得了显著的性能提升。例如，在BigEarthNet-10%数据集上，ResNet50/ViT-S模型的线性探测mAP得分分别达到了84.8/85.0，超过了大多数现有的ViT-L模型。ViT-B模型在多光谱和SAR数据上的线性探测mAP得分分别达到了86.8和82.5，创造了新的纪录，SAR的结果甚至优于许多多光谱模型。

🎯 应用场景

该研究成果可广泛应用于遥感图像分析、土地利用分类、环境监测、灾害评估等领域。通过高效的地球观测预训练，可以降低下游任务对标注数据的依赖，提高模型的泛化能力和鲁棒性，为智慧城市、可持续发展等提供更可靠的技术支撑，并加速相关应用的落地。

📄 摘要（原文）

Self-supervised pretraining on large-scale satellite data has raised great interest in building Earth observation (EO) foundation models. However, many important resources beyond pure satellite imagery, such as land-cover-land-use products that provide free global semantic information, as well as vision foundation models that hold strong knowledge of the natural world, are not widely studied. In this work, we show these free additional resources not only help resolve common contrastive learning bottlenecks, but also significantly boost the efficiency and effectiveness of EO pretraining. Specifically, we first propose soft contrastive learning that optimizes cross-scene soft similarity based on land-cover-generated multi-label supervision, naturally solving the issue of multiple positive samples and too strict positive matching in complex scenes. Second, we revisit and explore cross-domain continual pretraining for both multispectral and SAR imagery, building efficient EO foundation models from strongest vision models such as DINOv2. Adapting simple weight-initialization and Siamese masking strategies into our soft contrastive learning framework, we demonstrate impressive continual pretraining performance even when the input modalities are not aligned. Without prohibitive training, we produce multispectral and SAR foundation models that achieve significantly better results in 10 out of 11 downstream tasks than most existing SOTA models. For example, our ResNet50/ViT-S achieve 84.8/85.0 linear probing mAP scores on BigEarthNet-10\% which are better than most existing ViT-L models; under the same setting, our ViT-B sets a new record of 86.8 in multispectral, and 82.5 in SAR, the latter even better than many multispectral models. Dataset and models are available at \url{https://github.com/zhu-xlab/softcon}.

Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理