HighFM: Towards a Foundation Model for Learning Representations from High-Frequency Earth Observation Data
作者: Stella Girtsou, Konstantinos Alexis, Giorgos Giannopoulos, Harris Kontoes
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
HighFM:面向高频地球观测数据的遥感表征学习基础模型
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地球观测 基础模型 高时间分辨率 遥感图像 时空表示 灾害监测 Vision Transformer
📋 核心要点
- 现有遥感基础模型依赖低重访率的高分辨率卫星图像,难以满足快速演变现象和时间紧迫的应急响应需求。
- HighFM利用高时间分辨率的SEVIRI图像,通过改进的SatMAE框架学习鲁棒的时空表示,并加入细粒度时间编码。
- 实验表明,HighFM在云掩模和主动火灾检测任务上优于传统方法和现有地理空间基础模型,提升了平衡精度和IoU。
📝 摘要(中文)
气候相关灾害日益频繁和严重,对实时监测、早期预警和明智决策的需求日益迫切。地球观测(EO)技术,由卫星数据和机器学习(ML)驱动,为应对这些挑战提供了强大的工具。基础模型(FMs)通过在大规模遥感数据集上进行通用预训练,彻底改变了EO ML。然而,大多数现有模型依赖于低重访率的高分辨率卫星图像,限制了它们对快速演变现象和时间紧迫的应急响应的适用性。本文提出了HighFM,这是迈向高时间分辨率、多光谱EO数据FM的第一步尝试。利用来自Meteosat Second Generation (MSG)平台的超过2 TB的SEVIRI图像,我们调整了SatMAE掩码自编码框架来学习鲁棒的时空表示。为了支持实时监测,我们通过细粒度的时间编码来增强原始架构,以捕获短期可变性。然后,在云掩模和主动火灾检测任务上对预训练模型进行微调。我们将SEVIRI预训练的Vision Transformers与传统基线和最新的地理空间FM进行基准测试,证明了在平衡精度和IoU指标上的一致提升。我们的结果突出了时间密集型地球静止数据在实时EO中的潜力,为灾害检测和跟踪的基础模型提供了一条可扩展的路径。
🔬 方法详解
问题定义:论文旨在解决现有遥感基础模型无法有效利用高时间分辨率地球观测数据的问题。现有方法依赖于低重访率的高分辨率卫星图像,这限制了它们在需要快速响应的应用场景中的表现,例如灾害监测和预警。
核心思路:论文的核心思路是利用高时间分辨率的地球静止卫星数据(如SEVIRI)来训练基础模型,从而捕获快速变化的时空信息。通过对SatMAE框架进行改进,使其能够更好地处理时间序列数据,并学习到鲁棒的时空表示。
技术框架:HighFM的整体框架基于SatMAE,这是一个用于遥感图像的掩码自编码器。首先,使用SEVIRI图像数据对模型进行预训练,通过掩码部分图像并预测缺失部分来学习图像的潜在表示。然后,将预训练的模型在特定任务上进行微调,例如云掩模和主动火灾检测。为了更好地处理时间序列数据,HighFM在SatMAE的基础上增加了细粒度的时间编码模块。
关键创新:HighFM的关键创新在于将SatMAE框架应用于高时间分辨率的地球观测数据,并引入了细粒度的时间编码模块。这使得模型能够更好地捕获短期的时间变化,从而提高了在时间敏感型任务中的性能。此外,HighFM是第一个针对高时间分辨率地球观测数据的基础模型。
关键设计:HighFM使用了Vision Transformer作为其核心架构。时间编码模块被设计为能够捕获不同时间尺度上的信息,例如小时、天和季节。损失函数使用了均方误差(MSE)来衡量预测图像与原始图像之间的差异。掩码比例设置为0.75,这意味着75%的图像块被随机掩盖。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HighFM在云掩模和主动火灾检测任务上均优于传统基线和现有的地理空间基础模型。具体来说,HighFM在平衡精度和IoU指标上都取得了显著的提升,证明了其在高时间分辨率地球观测数据处理方面的优势。例如,在主动火灾检测任务中,HighFM相比于基线方法,IoU提升了5%以上。
🎯 应用场景
HighFM在灾害监测、农业监测、气象预报等领域具有广泛的应用前景。它可以用于实时监测森林火灾、洪水、风暴等自然灾害,并提供早期预警信息。此外,HighFM还可以用于监测农作物的生长状况,为农业生产提供决策支持。该研究为构建更强大的地球观测基础模型奠定了基础,有助于提升我们对地球系统的理解和应对能力。
📄 摘要(原文)
The increasing frequency and severity of climate related disasters have intensified the need for real time monitoring, early warning, and informed decision-making. Earth Observation (EO), powered by satellite data and Machine Learning (ML), offers powerful tools to meet these challenges. Foundation Models (FMs) have revolutionized EO ML by enabling general-purpose pretraining on large scale remote sensing datasets. However most existing models rely on high-resolution satellite imagery with low revisit rates limiting their suitability for fast-evolving phenomena and time critical emergency response. In this work, we present HighFM, a first cut approach towards a FM for high temporal resolution, multispectral EO data. Leveraging over 2 TB of SEVIRI imagery from the Meteosat Second Generation (MSG) platform, we adapt the SatMAE masked autoencoding framework to learn robust spatiotemporal representations. To support real time monitoring, we enhance the original architecture with fine grained temporal encodings to capture short term variability. The pretrained models are then finetuned on cloud masking and active fire detection tasks. We benchmark our SEVIRI pretrained Vision Transformers against traditional baselines and recent geospatial FMs, demonstrating consistent gains across both balanced accuracy and IoU metrics. Our results highlight the potential of temporally dense geostationary data for real-time EO, offering a scalable path toward foundation models for disaster detection and tracking.