WV-Net: A foundation model for SAR WV-mode satellite imagery trained using contrastive self-supervised learning on 10 million images
作者: Yannik Glaser, Justin E. Stopa, Linnea M. Wolniewicz, Ralph Foster, Doug Vandemark, Alexis Mouche, Bertrand Chapron, Peter Sadowski
分类: cs.LG, cs.AI, cs.CV
发布日期: 2024-06-26
备注: 20 pages, 9 figures, submitted to NeurIPS 2024
💡 一句话要点
WV-Net:基于对比自监督学习的SAR WV模式卫星图像基础模型,使用1000万张图像训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: SAR图像 自监督学习 对比学习 基础模型 海洋遥感 Sentinel-1 波浪模式
📋 核心要点
- 手动标注SAR图像成本高昂,限制了机器学习在海洋监测中的应用。
- 利用对比自监督学习,在大量SAR WV模式图像上训练语义嵌入模型WV-Net。
- WV-Net在波高估计、气温估计和现象分类等任务上优于ImageNet预训练模型。
📝 摘要(中文)
本研究利用近1000万张Sentinel-1卫星的波浪模式(WV)图像,通过对比自监督学习训练了一个名为WV-Net的语义嵌入模型。Sentinel-1是欧洲航天局的哥白尼计划中的C波段合成孔径雷达(SAR)卫星星座,可对全球海洋进行前所未有的监测。WV模式以5米像素分辨率捕获20x20公里图像块,不受云层覆盖或时间影响。该任务的开放数据政策使SAR数据易于用于各种应用,但手动图像注释的需求阻碍了机器学习方法的使用。在多个下游任务中,WV-Net优于在自然图像(ImageNet)上使用监督学习进行预训练的同类模型。实验表明,在估计波高(使用线性探测时,RMSE从0.60降至0.50)、估计近地表气温(RMSE从0.97降至0.90)以及执行地球物理和大气现象的多标签分类(微平均AUROC从0.95提升至0.96)方面均有改进。WV-Net嵌入在无监督图像检索任务中也表现出色,并且在数据稀疏的情况下具有更好的可扩展性。这些结果共同表明,WV-Net嵌入可以通过为各种数据分析和探索任务提供方便的基础模型来支持地球物理研究。
🔬 方法详解
问题定义:论文旨在解决SAR WV模式卫星图像分析中,因缺乏大量标注数据而难以有效利用机器学习方法的问题。现有方法依赖人工标注,成本高、效率低,限制了SAR数据在海洋研究中的应用。
核心思路:论文的核心思路是利用对比自监督学习,从大量未标注的SAR WV模式图像中学习有用的语义嵌入表示。通过对比学习,模型能够学习到图像之间的相似性和差异性,从而提取出与地球物理现象相关的特征。
技术框架:WV-Net的整体框架包括数据预处理、对比学习训练和下游任务评估三个阶段。首先,对SAR WV模式图像进行预处理,例如归一化。然后,使用对比学习方法训练WV-Net模型,使其能够区分相似和不同的图像。最后,将训练好的WV-Net模型应用于各种下游任务,例如波高估计、气温估计和现象分类,以评估其性能。
关键创新:论文的关键创新在于将对比自监督学习应用于SAR WV模式卫星图像,并构建了一个大规模的SAR图像基础模型WV-Net。与传统的监督学习方法相比,对比自监督学习能够有效利用大量未标注数据,从而提高模型的泛化能力和鲁棒性。
关键设计:论文使用了SimCLR框架进行对比学习,采用了ResNet-50作为骨干网络。损失函数为InfoNCE损失,用于最大化同一图像不同增强视图之间的一致性,并最小化不同图像视图之间的一致性。数据增强策略包括随机裁剪、颜色抖动和高斯模糊等。训练过程中,使用了较大的batch size和较长的训练周期。
🖼️ 关键图片
📊 实验亮点
WV-Net在多个下游任务中均优于ImageNet预训练模型。在波高估计任务中,使用线性探测时,WV-Net的RMSE为0.50,而ImageNet预训练模型的RMSE为0.60。在近地表气温估计任务中,WV-Net的RMSE为0.90,而ImageNet预训练模型的RMSE为0.97。在地球物理和大气现象的多标签分类任务中,WV-Net的微平均AUROC为0.96,而ImageNet预训练模型的微平均AUROC为0.95。此外,WV-Net在无监督图像检索任务中也表现出色,并且在数据稀疏的情况下具有更好的可扩展性。
🎯 应用场景
WV-Net可广泛应用于海洋地球物理研究,例如海浪监测、海面风场反演、海冰检测和海洋污染监测等。该模型能够为各种数据分析和探索任务提供方便的基础模型,降低了机器学习在SAR图像分析中的门槛,加速了相关研究的进展。未来,WV-Net可以与其他数据源(例如气象数据、海洋模型数据)相结合,实现更精确的海洋环境监测和预报。
📄 摘要(原文)
The European Space Agency's Copernicus Sentinel-1 (S-1) mission is a constellation of C-band synthetic aperture radar (SAR) satellites that provide unprecedented monitoring of the world's oceans. S-1's wave mode (WV) captures 20x20 km image patches at 5 m pixel resolution and is unaffected by cloud cover or time-of-day. The mission's open data policy has made SAR data easily accessible for a range of applications, but the need for manual image annotations is a bottleneck that hinders the use of machine learning methods. This study uses nearly 10 million WV-mode images and contrastive self-supervised learning to train a semantic embedding model called WV-Net. In multiple downstream tasks, WV-Net outperforms a comparable model that was pre-trained on natural images (ImageNet) with supervised learning. Experiments show improvements for estimating wave height (0.50 vs 0.60 RMSE using linear probing), estimating near-surface air temperature (0.90 vs 0.97 RMSE), and performing multilabel-classification of geophysical and atmospheric phenomena (0.96 vs 0.95 micro-averaged AUROC). WV-Net embeddings are also superior in an unsupervised image-retrieval task and scale better in data-sparse settings. Together, these results demonstrate that WV-Net embeddings can support geophysical research by providing a convenient foundation model for a variety of data analysis and exploration tasks.