Position Prediction Self-Supervised Learning for Multimodal Satellite Imagery Semantic Segmentation

📄 arXiv: 2506.06852v2 📥 PDF

作者: John Waithaka, Moise Busogi

分类: cs.CV, cs.AI

发布日期: 2025-06-07 (更新: 2025-07-16)


💡 一句话要点

提出基于位置预测自监督学习的多模态卫星图像语义分割方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 卫星图像 语义分割 自监督学习 位置预测 多模态融合

📋 核心要点

  1. 卫星图像语义分割面临标注数据稀缺的挑战,现有自监督方法侧重重建,忽略了分割任务对定位的本质需求。
  2. 论文提出LOCA方法,通过位置预测任务学习空间关系,并针对多模态卫星数据特点进行优化。
  3. 实验表明,该方法在洪水制图任务上显著优于基于重建的自监督方法,验证了其有效性。

📝 摘要(中文)

卫星图像的语义分割对于地球观测应用至关重要,但受到标注训练数据有限的制约。虽然诸如Masked Autoencoders (MAE)等自监督预训练方法显示出潜力,但它们侧重于重建而非定位,而定位是分割任务的一个基本方面。我们提出了一种适用于多模态卫星图像语义分割的位置预测自监督学习方法LOCA (Location-aware)。我们的方法通过扩展SatMAE的通道分组从多光谱数据到多模态数据,解决了卫星数据的独特挑战,从而能够有效地处理多种模态,并引入同组注意力掩码,以鼓励预训练期间的跨模态交互。该方法使用相对patch位置预测,鼓励空间推理进行定位而不是重建。我们在Sen1Floods11洪水制图数据集上评估了我们的方法,结果表明,它明显优于现有的基于重建的卫星图像自监督学习方法。我们的结果表明,当针对多模态卫星图像进行适当调整时,位置预测任务比基于重建的方法能学习到更有效的卫星图像语义分割表示。

🔬 方法详解

问题定义:卫星图像语义分割任务需要大量的标注数据,而获取这些数据成本高昂。现有的自监督学习方法,如MAE,主要关注图像重建,忽略了语义分割任务中至关重要的位置信息,导致预训练模型在分割任务上的表现提升有限。

核心思路:论文的核心思路是利用位置预测作为自监督学习的目标,迫使模型学习图像中不同区域之间的空间关系。通过预测图像块的相对位置,模型能够更好地理解图像的几何结构,从而提高其在语义分割任务中的定位能力。

技术框架:该方法基于SatMAE架构,并进行了扩展以适应多模态卫星图像。整体流程包括:1) 输入多模态卫星图像;2) 使用通道分组将多光谱和雷达数据进行有效融合;3) 应用同组注意力掩码,鼓励跨模态信息交互;4) 通过位置预测任务进行自监督预训练;5) 将预训练模型应用于下游语义分割任务。

关键创新:该方法的关键创新在于将位置预测任务引入到多模态卫星图像的自监督学习中,并针对卫星数据的特点进行了优化。具体来说,通过扩展SatMAE的通道分组和引入同组注意力掩码,实现了对多模态数据的有效处理和跨模态信息融合。

关键设计:同组注意力掩码的设计是关键。它将来自不同模态的图像块分为同一组,并在掩码时保证同一组内的图像块要么同时被掩码,要么同时不被掩码。这种设计鼓励模型学习不同模态之间的关联性,从而提高多模态特征的表达能力。损失函数采用交叉熵损失,用于衡量预测位置与真实位置之间的差异。

📊 实验亮点

在Sen1Floods11数据集上的实验结果表明,该方法显著优于现有的基于重建的自监督学习方法。具体来说,该方法在语义分割任务上的性能提升了多个百分点,证明了位置预测任务在卫星图像语义分割中的有效性。实验结果还表明,同组注意力掩码能够有效地促进跨模态信息融合,进一步提升模型的性能。

🎯 应用场景

该研究成果可广泛应用于地球观测领域,例如洪水灾害监测、土地利用分类、城市规划和环境变化分析等。通过利用无标签的卫星图像进行自监督预训练,可以显著降低对标注数据的依赖,提高卫星图像语义分割的精度和效率,为相关应用提供更可靠的数据支持。

📄 摘要(原文)

Semantic segmentation of satellite imagery is crucial for Earth observation applications, but remains constrained by limited labelled training data. While self-supervised pretraining methods like Masked Autoencoders (MAE) have shown promise, they focus on reconstruction rather than localisation-a fundamental aspect of segmentation tasks. We propose adapting LOCA (Location-aware), a position prediction self-supervised learning method, for multimodal satellite imagery semantic segmentation. Our approach addresses the unique challenges of satellite data by extending SatMAE's channel grouping from multispectral to multimodal data, enabling effective handling of multiple modalities, and introducing same-group attention masking to encourage cross-modal interaction during pretraining. The method uses relative patch position prediction, encouraging spatial reasoning for localisation rather than reconstruction. We evaluate our approach on the Sen1Floods11 flood mapping dataset, where it significantly outperforms existing reconstruction-based self-supervised learning methods for satellite imagery. Our results demonstrate that position prediction tasks, when properly adapted for multimodal satellite imagery, learn representations more effective for satellite image semantic segmentation than reconstruction-based approaches.