MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

📄 arXiv: 2508.10894v2 📥 PDF

作者: Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier

分类: cs.CV

发布日期: 2025-08-14 (更新: 2025-10-09)

🔗 代码/项目: GITHUB


💡 一句话要点

提出MAESTRO,利用掩码自编码器处理多模态、多时相、多光谱地球观测数据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 掩码自编码器 自监督学习 地球观测 多模态融合 多时相分析 多光谱数据 遥感 光谱先验

📋 核心要点

  1. 现有自监督方法难以直接应用于地球观测数据,无法有效处理其多模态、多时相和多光谱的复杂特性。
  2. MAESTRO通过优化融合机制和引入基于光谱先验的归一化方案,改进了掩码自编码器,以适应地球观测数据的特点。
  3. 在多个地球观测数据集上的实验表明,MAESTRO在依赖多时相动态的任务上取得了领先性能,并在其他任务中保持竞争力。

📝 摘要(中文)

自监督学习在遥感领域具有广阔的应用前景,但标准的自监督方法必须针对地球观测数据的独特特征进行调整。本文通过对多模态、多时相和多光谱地球观测数据的融合策略和重建目标归一化方案进行全面基准测试,朝着这个方向迈出了一步。基于我们的发现,我们引入了MAESTRO,这是一种新颖的掩码自编码器改进版本,具有优化的融合机制和归一化方案,该方案结合了光谱先验作为自监督信号。在四个地球观测数据集上进行评估,包括数据集内和跨数据集设置,MAESTRO在强烈依赖多时相动态的任务上实现了最先进的性能,同时在其他任务上也保持了竞争力。所有实验的代码可在https://github.com/ignf/maestro获取。

🔬 方法详解

问题定义:地球观测数据具有多模态、多时相和多光谱的特点,现有的自监督学习方法难以有效利用这些信息。直接应用现有方法会导致性能不佳,无法充分挖掘地球观测数据的潜力。因此,需要专门为地球观测数据设计的自监督学习方法。

核心思路:MAESTRO的核心思路是利用掩码自编码器(MAE)框架,并针对地球观测数据的特点进行改进。通过掩码部分输入数据并重建,模型可以学习到数据中的内在联系和表示。关键在于如何有效地融合多模态、多时相和多光谱信息,并设计合适的重建目标。

技术框架:MAESTRO的整体框架基于掩码自编码器。首先,对输入的多模态、多时相和多光谱地球观测数据进行掩码。然后,编码器将未被掩码的数据编码成潜在表示。解码器接收潜在表示和掩码信息,并尝试重建原始输入数据。通过最小化重建误差,模型学习到数据的表示。MAESTRO的关键在于融合模块和归一化方案的设计。

关键创新:MAESTRO的关键创新在于两个方面:一是优化的融合机制,用于有效地融合多模态、多时相和多光谱信息;二是引入了基于光谱先验的归一化方案,作为自监督信号。光谱先验可以提供关于不同光谱波段之间关系的额外信息,帮助模型更好地学习数据的表示。

关键设计:MAESTRO的关键设计包括:1) 融合模块的具体结构,例如使用注意力机制来加权不同模态或时相的信息;2) 归一化方案的具体实现,例如使用光谱指数作为归一化因子;3) 掩码策略,例如随机掩码或基于语义的掩码;4) 重建损失函数的选择,例如均方误差或交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAESTRO在四个地球观测数据集上进行了评估,并在依赖多时相动态的任务上取得了最先进的性能。例如,在土地覆盖分类任务中,MAESTRO相比现有方法取得了显著的提升。此外,MAESTRO在跨数据集设置中也表现出良好的泛化能力,表明其学习到的表示具有一定的通用性。实验结果验证了MAESTRO的有效性和优越性。

🎯 应用场景

MAESTRO可应用于多种地球观测任务,如土地覆盖分类、作物类型识别、森林变化监测、自然灾害评估等。通过利用多模态、多时相和多光谱数据,MAESTRO可以提高这些任务的精度和效率,为环境监测、农业管理和灾害应对提供更可靠的信息支持。该研究的成果有助于推动遥感技术的进步和应用。

📄 摘要(原文)

Self-supervised learning holds great promise for remote sensing, but standard self-supervised methods must be adapted to the unique characteristics of Earth observation data. We take a step in this direction by conducting a comprehensive benchmark of fusion strategies and normalization schemes of reconstruction targets for multimodal, multitemporal, and multispectral Earth observation data. Based on our findings, we introduce MAESTRO, a novel adaptation of the Masked Autoencoder with optimized fusion mechanisms and a normalization scheme that incorporates a spectral prior as a self-supervisory signal. Evaluated on four Earth observation datasets in both intra- and cross-dataset settings, MAESTRO achieves state-of-the-art performance on tasks that strongly rely on multitemporal dynamics, while also remaining competitive on others. Code to reproduce all our experiments is available at https://github.com/ignf/maestro.