THOR: A Versatile Foundation Model for Earth Observation Climate and Society Applications

📄 arXiv: 2601.16011v1 📥 PDF

作者: Theodor Forgaard, Jarle H. Reksten, Anders U. Waldeland, Valerio Marsocci, Nicolas Longépé, Michael Kampffmeyer, Arnt-Børre Salberg

分类: eess.IV, cs.AI

发布日期: 2026-01-22

备注: 25 pages


💡 一句话要点

提出THOR,一种适用于地球观测气候和社会应用的多功能基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地球观测 基础模型 多传感器融合 计算自适应 遥感图像 气候变化 深度学习

📋 核心要点

  1. 现有地球观测模型难以处理异构传感器数据和不同分辨率,限制了其在实际应用中的灵活性。
  2. THOR通过随机化图像块大小和输入尺寸,实现了计算自适应性,允许在推理时动态调整计算成本和特征分辨率。
  3. THOR在新的大规模多传感器数据集上预训练,并在下游任务中表现出优异性能,尤其在数据受限情况下。

📝 摘要(中文)

现有的地球观测基础模型架构僵化,难以处理异构传感器数据,并且受限于固定的图像块大小。这限制了它们在需要灵活的计算-精度权衡的实际场景中的部署。我们提出了THOR,一种“计算自适应”的基础模型,解决了输入异构性和部署刚性问题。THOR是第一个统一来自哥白尼哨兵1号、2号和3号(OLCI & SLSTR)卫星数据的架构,可以在单个模型中处理其原生10米到1000米分辨率。我们使用一种新颖的随机图像块和输入图像大小策略预训练THOR。这使得单组预训练权重可以在任何图像块大小下进行推理部署,从而在计算成本和特征分辨率之间实现动态权衡,而无需重新训练。我们在THOR Pretrain(一个新的大规模多传感器数据集)上预训练THOR,并在下游基准测试中展示了最先进的性能,尤其是在数据有限的领域(如PANGAEA 10%分割),验证了THOR的灵活特征生成在各种气候和社会应用中表现出色。

🔬 方法详解

问题定义:现有地球观测基础模型通常架构固定,难以有效融合来自不同传感器(如Sentinel-1, -2, -3)的数据,并且对输入图像块的大小有严格要求。这限制了它们在实际应用中的灵活性,无法根据计算资源和精度需求进行动态调整。现有方法难以在异构数据和不同分辨率下实现高效的特征提取。

核心思路:THOR的核心思路是构建一个“计算自适应”的基础模型,通过在预训练阶段引入随机化的图像块大小和输入尺寸,使模型能够适应不同的计算资源和精度需求。这种设计允许在推理阶段灵活选择图像块大小,从而在计算成本和特征分辨率之间进行权衡,而无需重新训练。

技术框架:THOR的整体架构包含一个统一的多传感器数据处理模块,能够接收来自Sentinel-1, -2, -3的数据,并将其处理成统一的特征表示。然后,这些特征被输入到一个Transformer网络中进行进一步的特征提取和学习。关键在于预训练阶段,使用了随机化的图像块大小和输入尺寸,使得模型能够学习到与分辨率无关的通用特征。

关键创新:THOR最重要的技术创新点在于其“计算自适应”的设计,通过随机化图像块大小和输入尺寸,使得模型能够在推理阶段灵活调整计算成本和特征分辨率。这与现有方法中固定图像块大小和分辨率的模型形成了鲜明对比,大大提高了模型的灵活性和适用性。

关键设计:THOR的关键设计包括:1) 统一的多传感器数据处理模块,能够处理不同分辨率和类型的遥感数据;2) 随机化的图像块大小和输入尺寸策略,在预训练阶段引入多样性;3) 使用Transformer网络进行特征提取,能够有效捕捉遥感图像中的空间关系。损失函数使用了标准的对比学习损失,以鼓励模型学习到具有区分性的特征表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

THOR在多个下游基准测试中取得了最先进的性能,尤其是在数据有限的PANGAEA 10%分割上,验证了其灵活特征生成的有效性。与现有方法相比,THOR在保持相似精度的情况下,可以显著降低计算成本,或者在相同计算成本下,提供更高的特征分辨率。这些结果表明,THOR在实际应用中具有显著的优势。

🎯 应用场景

THOR具有广泛的应用前景,包括气候变化监测、自然灾害评估、农业资源管理、城市规划等领域。其灵活的计算自适应性使其能够部署在资源受限的环境中,例如边缘计算设备或移动平台。未来,THOR可以与其他数据源(如气象数据、地理信息数据)相结合,构建更强大的地球观测系统,为决策者提供更准确、更及时的信息。

📄 摘要(原文)

Current Earth observation foundation models are architecturally rigid, struggle with heterogeneous sensors and are constrained to fixed patch sizes. This limits their deployment in real-world scenarios requiring flexible computeaccuracy trade-offs. We propose THOR, a "computeadaptive" foundation model that solves both input heterogeneity and deployment rigidity. THOR is the first architecture to unify data from Copernicus Sentinel-1, -2, and -3 (OLCI & SLSTR) satellites, processing their native 10 m to 1000 m resolutions in a single model. We pre-train THOR with a novel randomized patch and input image size strategy. This allows a single set of pre-trained weights to be deployed at inference with any patch size, enabling a dynamic trade-off between computational cost and feature resolution without retraining. We pre-train THOR on THOR Pretrain, a new, large-scale multi-sensor dataset and demonstrate state-of-the-art performance on downstream benchmarks, particularly in data-limited regimes like the PANGAEA 10% split, validating that THOR's flexible feature generation excels for diverse climate and society applications.