Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder for Earth Observation
作者: Mohanad Albughdadi
分类: cs.CV, cs.LG
发布日期: 2025-09-13
💡 一句话要点
提出元数据感知的轻量级混合专家掩码自编码器,用于高效地球观测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地球观测 掩码自编码器 混合专家模型 元数据感知 轻量级模型
📋 核心要点
- 现有地球观测基础模型计算成本高,限制了其可访问性和下游任务的复用。
- 提出一种元数据感知的混合专家掩码自编码器,结合稀疏路由和地理时序信息。
- 实验表明,该模型在参数量小的情况下,性能可与大型模型媲美,且泛化能力强。
📝 摘要(中文)
本文提出了一种轻量级的元数据感知混合专家掩码自编码器(MoE-MAE),仅包含250万参数,旨在解决地球观测领域大规模基础模型计算成本高昂的问题。该模型结合了稀疏专家路由和地理时序条件,将图像与经纬度以及季节/每日循环编码相结合。MoE-MAE在BigEarthNet-Landsat数据集上进行预训练,并使用线性探针评估其冻结编码器的嵌入。实验结果表明,尽管模型体积小,但其性能可与更大的架构相媲美,证明了元数据感知的预训练能够提高迁移能力和标签效率。在缺乏显式元数据的EuroSAT-Landsat数据集上的评估进一步验证了模型的泛化能力,其性能仍然优于具有数亿参数的模型。这些结果表明,紧凑的、元数据感知的MoE-MAE是未来地球观测基础模型高效且可扩展的一步。
🔬 方法详解
问题定义:现有地球观测领域的大规模基础模型虽然性能强大,但计算资源消耗巨大,部署和应用成本高昂,阻碍了其在资源受限场景下的应用。因此,如何设计一种轻量级且性能优异的地球观测模型成为一个重要的研究问题。
核心思路:本文的核心思路是将混合专家模型(MoE)与掩码自编码器(MAE)相结合,并引入元数据信息作为条件输入,从而在减少模型参数量的同时,提升模型的表征学习能力和泛化性能。MoE通过稀疏激活不同的专家网络,降低了计算复杂度,而元数据信息则为模型提供了额外的上下文信息,有助于模型更好地理解地球观测数据。
技术框架:该模型主要包含以下几个模块:1) 图像编码器:将输入的地球观测图像编码成潜在表示。2) 元数据编码器:将输入的地理时序元数据编码成嵌入向量。3) 混合专家层:根据图像编码和元数据嵌入,动态地选择激活不同的专家网络。4) 掩码自编码器:对部分掩码的图像编码进行重建,从而学习图像的潜在表示。整体流程是,首先将图像和元数据分别编码,然后通过混合专家层进行融合,最后使用掩码自编码器进行预训练。
关键创新:该论文的关键创新在于将元数据信息融入到混合专家掩码自编码器中。传统的MAE模型通常只关注图像本身的信息,而忽略了地球观测数据中丰富的元数据信息。通过将元数据信息作为条件输入,该模型能够更好地理解地球观测数据的上下文,从而提升模型的表征学习能力和泛化性能。
关键设计:模型使用2.5M参数。元数据编码器使用循环编码来表示季节和每日周期。损失函数是标准的MAE重建损失。模型在BigEarthNet-Landsat数据集上进行预训练,并使用线性探针评估其冻结编码器的嵌入。专家网络的数量和容量是根据实验结果进行调整的。
📊 实验亮点
实验结果表明,该模型在BigEarthNet-Landsat数据集上预训练后,在EuroSAT-Landsat数据集上进行评估时,其性能可与具有数亿参数的模型相媲美。这表明,即使在缺乏显式元数据的情况下,该模型仍然具有很强的泛化能力。此外,该模型在标签效率方面也表现出色,证明了元数据感知的预训练能够有效提升模型的迁移能力。
🎯 应用场景
该研究成果可应用于遥感图像分类、目标检测、场景理解等领域。轻量级模型更易于部署在边缘设备或资源受限的环境中,例如无人机、卫星等。通过元数据信息的融合,可以提升模型在不同地理区域和时间段的泛化能力,为农业监测、环境监测、灾害评估等应用提供更可靠的支持。
📄 摘要(原文)
Recent advances in Earth Observation have focused on large-scale foundation models. However, these models are computationally expensive, limiting their accessibility and reuse for downstream tasks. In this work, we investigate compact architectures as a practical pathway toward smaller general-purpose EO models. We propose a Metadata-aware Mixture-of-Experts Masked Autoencoder (MoE-MAE) with only 2.5M parameters. The model combines sparse expert routing with geo-temporal conditioning, incorporating imagery alongside latitude/longitude and seasonal/daily cyclic encodings. We pretrain the MoE-MAE on the BigEarthNet-Landsat dataset and evaluate embeddings from its frozen encoder using linear probes. Despite its small size, the model competes with much larger architectures, demonstrating that metadata-aware pretraining improves transfer and label efficiency. To further assess generalization, we evaluate on the EuroSAT-Landsat dataset, which lacks explicit metadata, and still observe competitive performance compared to models with hundreds of millions of parameters. These results suggest that compact, metadata-aware MoE-MAEs are an efficient and scalable step toward future EO foundation models.