TerraFlow: Multimodal, Multitemporal Representation Learning for Earth Observation

📄 arXiv: 2603.12762v1 📥 PDF

作者: Nazar Puriy, Johannes Jakubik, Benedikt Blumenstiel, Konrad Schindler

分类: cs.CV, cs.LG

发布日期: 2026-03-13


💡 一句话要点

TerraFlow:用于地球观测的多模态、多时相表征学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地球观测 多模态学习 多时相学习 时序建模 深度学习 自然灾害预测 遥感 表征学习

📋 核心要点

  1. 现有地球观测模型难以有效处理多模态、多时相数据,尤其是在变长输入的情况下。
  2. TerraFlow通过时序训练目标,实现跨空间、时间、模态的序列感知学习,增强模型鲁棒性。
  3. 实验表明,TerraFlow在GEO-Bench-2基准测试中显著优于现有模型,并在灾害风险预测方面表现出色。

📝 摘要(中文)

本文提出了一种名为TerraFlow的全新方法,用于地球观测中的多模态、多时相学习。TerraFlow构建于时序训练目标之上,实现了跨空间、时间和模态的序列感知学习,同时对现实世界地球观测数据中常见的变长输入具有鲁棒性。实验表明,在GEO-Bench-2基准测试的所有时序任务中,TerraFlow优于最先进的地球观测基础模型。此外,TerraFlow能够在基于深度学习的自然灾害风险地图预测方面取得初步进展,而其他最先进的基础模型在该任务上经常失效。TerraFlow在F1分数上优于最先进的基础模型高达50%,在Brier分数上优于24%。

🔬 方法详解

问题定义:地球观测数据具有多模态、多时相的特点,且数据长度经常变化。现有方法难以有效整合这些信息,导致模型在时序任务和灾害风险预测等任务中表现不佳。尤其是在处理真实世界中不规则、变长的时间序列数据时,性能会显著下降。

核心思路:TerraFlow的核心在于利用时序训练目标,使模型能够学习到跨空间、时间和模态的序列感知表征。通过这种方式,模型可以更好地理解地球观测数据中的时序依赖关系,并对变长输入具有更强的鲁棒性。

技术框架:TerraFlow的整体框架包含数据预处理、特征提取、时序建模和任务预测等模块。首先,对多模态的地球观测数据进行预处理,例如去除噪声、归一化等。然后,使用卷积神经网络等方法提取不同模态的特征。接着,利用循环神经网络或Transformer等时序模型对特征进行时序建模,学习时序依赖关系。最后,根据具体任务,使用全连接层等进行预测。

关键创新:TerraFlow的关键创新在于其时序训练目标,该目标鼓励模型学习到对时间序列中长期依赖关系敏感的表征。此外,TerraFlow的设计使其能够自然地处理变长输入,无需进行额外的填充或截断操作。

关键设计:TerraFlow使用了Transformer作为其核心的时序建模模块,并采用了一种对比学习损失函数来优化模型的表征能力。具体来说,模型会学习将同一区域在不同时间点的表征拉近,同时将不同区域的表征推远。此外,为了处理不同模态的数据,TerraFlow使用了独立的特征提取器,并将提取的特征拼接在一起作为Transformer的输入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TerraFlow在GEO-Bench-2基准测试中,所有时序任务上均超越了现有最先进的地球观测基础模型。在自然灾害风险地图预测任务中,TerraFlow在F1分数上比现有模型提升高达50%,在Brier分数上提升24%。这些结果表明,TerraFlow在处理复杂地球观测数据方面具有显著优势。

🎯 应用场景

TerraFlow在农业监测、自然灾害预警、城市规划和环境监测等领域具有广泛的应用前景。通过分析多模态、多时相的地球观测数据,TerraFlow可以帮助我们更好地理解地球表面的变化,并为决策提供支持。例如,可以利用TerraFlow预测农作物产量、评估自然灾害风险、监测城市扩张和评估环境污染程度。

📄 摘要(原文)

We propose TerraFlow, a novel approach to multimodal, multitemporal learning for Earth observation. TerraFlow builds on temporal training objectives that enable sequence-aware learning across space, time, and modality, while remaining robust to the variable-length inputs commonly encountered in real-world Earth observation data. Our experiments demonstrate superiority of TerraFlow over state-of-the-art foundation models for Earth observation across all temporal tasks of the GEO-Bench-2 benchmark. We additionally demonstrate that TerraFlow is able to make initial steps towards deep-learning based risk map prediction for natural disasters -- a task on which other state-of-the-art foundation models frequently collapse. TerraFlow outperforms state-of-the-art foundation models by up to 50% in F1 score and 24% in Brier score.