Paving the way toward foundation models for irregular and unaligned Satellite Image Time Series

📄 arXiv: 2407.08448v2 📥 PDF

作者: Iris Dumeur, Silvia Valero, Jordi Inglada

分类: cs.AI, cs.CV

发布日期: 2024-07-11 (更新: 2024-09-30)


💡 一句话要点

ALISE:面向不规则卫星图像时间序列的基础模型对齐编码器

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 卫星图像时间序列 自监督学习 表征学习 时间序列对齐 基础模型

📋 核心要点

  1. 现有卫星遥感图像基础模型难以处理光谱、空间、时间维度以及不规则时间采样问题。
  2. ALISE通过灵活的查询机制将不规则SITS投影到统一的时间空间,生成对齐的潜在表示。
  3. 实验表明,ALISE在作物分割、土地覆盖分割和作物变化检测等下游任务中表现优于现有方法。

📝 摘要(中文)

本文提出了一种对齐卫星图像时间序列(SITS)的编码器ALISE,旨在解决现有基础模型无法有效处理真实应用中SITS数据在光谱、空间和时间维度上的挑战,以及不规则或未对齐的时间采样问题。ALISE利用SITS数据的光谱、空间和时间维度,生成对齐的潜在表示。与现有的SITS自监督学习(SSL)模型不同,ALISE采用灵活的查询机制,将SITS投影到一个通用的、可学习的时间投影空间。此外,借助多视角框架,探索了实例判别和掩码自编码任务的集成。通过作物分割(PASTIS)、土地覆盖分割(MultiSenGE)以及一个新的作物变化检测数据集,评估了所生成表示的质量。结果表明,对于线性探测分割任务,使用对齐的表示比以前的SSL方法更有效,并且变化检测任务可以在无监督的情况下执行。

🔬 方法详解

问题定义:现有卫星图像时间序列(SITS)的基础模型无法有效处理真实应用场景中常见的不规则和未对齐的时间采样问题。这些模型通常忽略了SITS数据固有的光谱、空间和时间维度信息,导致其在实际应用中的效果不佳。因此,需要一种能够有效处理这些挑战,并生成对齐的、具有判别性的SITS表示的方法。

核心思路:ALISE的核心思路是利用一个灵活的查询机制,将不规则时间采样的SITS数据投影到一个通用的、可学习的时间投影空间。通过这种方式,ALISE能够将不同时间点的SITS数据对齐到一个共同的时间轴上,从而更好地捕捉SITS数据的时间动态变化。此外,ALISE还采用了多视角学习框架,结合实例判别和掩码自编码任务,进一步提升了SITS表示的质量。

技术框架:ALISE的整体框架包括以下几个主要模块:1) 输入SITS数据预处理模块,用于处理原始SITS数据,包括去除噪声、插值等操作;2) 时间投影模块,利用查询机制将SITS数据投影到统一的时间空间;3) 多视角学习模块,结合实例判别和掩码自编码任务,学习SITS数据的表示;4) 输出对齐的SITS潜在表示。

关键创新:ALISE的关键创新在于其灵活的查询机制,该机制能够有效地处理不规则时间采样的SITS数据,并将其对齐到一个共同的时间轴上。与现有的SITS自监督学习方法相比,ALISE能够更好地捕捉SITS数据的时间动态变化,并生成更具判别性的表示。此外,ALISE的多视角学习框架也进一步提升了SITS表示的质量。

关键设计:ALISE的关键设计包括:1) 查询机制的具体实现方式,例如使用Transformer架构;2) 实例判别和掩码自编码任务的具体损失函数;3) 多视角学习框架中不同任务的权重设置;4) 时间投影空间的维度大小等参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ALISE在作物分割(PASTIS)、土地覆盖分割(MultiSenGE)以及作物变化检测等下游任务中表现出色。特别是在作物变化检测任务中,ALISE能够在无监督的情况下取得良好的效果,表明其学习到的SITS表示具有很强的泛化能力。与之前的自监督学习方法相比,ALISE在这些任务中取得了显著的性能提升。

🎯 应用场景

ALISE在农业监测、土地覆盖变化分析、自然灾害评估等领域具有广泛的应用前景。通过对卫星图像时间序列进行有效分析,可以实现对农作物生长状况的实时监测、土地利用类型的动态变化分析,以及对洪水、干旱等自然灾害的快速评估,为相关决策提供支持。

📄 摘要(原文)

Although recently several foundation models for satellite remote sensing imagery have been proposed, they fail to address major challenges of real/operational applications. Indeed, embeddings that don't take into account the spectral, spatial and temporal dimensions of the data as well as the irregular or unaligned temporal sampling are of little use for most real world uses. As a consequence, we propose an ALIgned Sits Encoder (ALISE), a novel approach that leverages the spatial, spectral, and temporal dimensions of irregular and unaligned SITS while producing aligned latent representations. Unlike SSL models currently available for SITS, ALISE incorporates a flexible query mechanism to project the SITS into a common and learned temporal projection space. Additionally, thanks to a multi-view framework, we explore integration of instance discrimination along a masked autoencoding task to SITS. The quality of the produced representation is assessed through three downstream tasks: crop segmentation (PASTIS), land cover segmentation (MultiSenGE), and a novel crop change detection dataset. Furthermore, the change detection task is performed without supervision. The results suggest that the use of aligned representations is more effective than previous SSL methods for linear probing segmentation tasks.