THOR: A Versatile Foundation Model for Earth Observation Climate and Society Applications

作者: Theodor Forgaard, Jarle H. Reksten, Anders U. Waldeland, Valerio Marsocci, Nicolas Longépé, Michael Kampffmeyer, Arnt-Børre Salberg

分类: eess.IV, cs.AI

发布日期: 2026-01-22

备注: 25 pages

💡 一句话要点

提出THOR，一种适用于地球观测气候和社会应用的多功能基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 地球观测 基础模型 多传感器融合 计算自适应 遥感图像 气候变化 深度学习

📋 核心要点

现有地球观测模型难以处理异构传感器数据和不同分辨率，限制了其在实际应用中的灵活性。
THOR通过随机化图像块大小和输入尺寸，实现了计算自适应性，允许在推理时动态调整计算成本和特征分辨率。
THOR在新的大规模多传感器数据集上预训练，并在下游任务中表现出优异性能，尤其在数据受限情况下。

📝 摘要（中文）

现有的地球观测基础模型架构僵化，难以处理异构传感器数据，并且受限于固定的图像块大小。这限制了它们在需要灵活的计算-精度权衡的实际场景中的部署。我们提出了THOR，一种“计算自适应”的基础模型，解决了输入异构性和部署刚性问题。THOR是第一个统一来自哥白尼哨兵1号、2号和3号（OLCI & SLSTR）卫星数据的架构，可以在单个模型中处理其原生10米到1000米分辨率。我们使用一种新颖的随机图像块和输入图像大小策略预训练THOR。这使得单组预训练权重可以在任何图像块大小下进行推理部署，从而在计算成本和特征分辨率之间实现动态权衡，而无需重新训练。我们在THOR Pretrain（一个新的大规模多传感器数据集）上预训练THOR，并在下游基准测试中展示了最先进的性能，尤其是在数据有限的领域（如PANGAEA 10%分割），验证了THOR的灵活特征生成在各种气候和社会应用中表现出色。

🔬 方法详解

问题定义：现有地球观测基础模型通常架构固定，难以有效融合来自不同传感器（如Sentinel-1, -2, -3）的数据，并且对输入图像块的大小有严格要求。这限制了它们在实际应用中的灵活性，无法根据计算资源和精度需求进行动态调整。现有方法难以在异构数据和不同分辨率下实现高效的特征提取。

核心思路：THOR的核心思路是构建一个“计算自适应”的基础模型，通过在预训练阶段引入随机化的图像块大小和输入尺寸，使模型能够适应不同的计算资源和精度需求。这种设计允许在推理阶段灵活选择图像块大小，从而在计算成本和特征分辨率之间进行权衡，而无需重新训练。

技术框架：THOR的整体架构包含一个统一的多传感器数据处理模块，能够接收来自Sentinel-1, -2, -3的数据，并将其处理成统一的特征表示。然后，这些特征被输入到一个Transformer网络中进行进一步的特征提取和学习。关键在于预训练阶段，使用了随机化的图像块大小和输入尺寸，使得模型能够学习到与分辨率无关的通用特征。

关键创新：THOR最重要的技术创新点在于其“计算自适应”的设计，通过随机化图像块大小和输入尺寸，使得模型能够在推理阶段灵活调整计算成本和特征分辨率。这与现有方法中固定图像块大小和分辨率的模型形成了鲜明对比，大大提高了模型的灵活性和适用性。

关键设计：THOR的关键设计包括：1) 统一的多传感器数据处理模块，能够处理不同分辨率和类型的遥感数据；2) 随机化的图像块大小和输入尺寸策略，在预训练阶段引入多样性；3) 使用Transformer网络进行特征提取，能够有效捕捉遥感图像中的空间关系。损失函数使用了标准的对比学习损失，以鼓励模型学习到具有区分性的特征表示。

🖼️ 关键图片

📊 实验亮点

THOR在多个下游基准测试中取得了最先进的性能，尤其是在数据有限的PANGAEA 10%分割上，验证了其灵活特征生成的有效性。与现有方法相比，THOR在保持相似精度的情况下，可以显著降低计算成本，或者在相同计算成本下，提供更高的特征分辨率。这些结果表明，THOR在实际应用中具有显著的优势。

🎯 应用场景

THOR具有广泛的应用前景，包括气候变化监测、自然灾害评估、农业资源管理、城市规划等领域。其灵活的计算自适应性使其能够部署在资源受限的环境中，例如边缘计算设备或移动平台。未来，THOR可以与其他数据源（如气象数据、地理信息数据）相结合，构建更强大的地球观测系统，为决策者提供更准确、更及时的信息。

📄 摘要（原文）

Current Earth observation foundation models are architecturally rigid, struggle with heterogeneous sensors and are constrained to fixed patch sizes. This limits their deployment in real-world scenarios requiring flexible computeaccuracy trade-offs. We propose THOR, a "computeadaptive" foundation model that solves both input heterogeneity and deployment rigidity. THOR is the first architecture to unify data from Copernicus Sentinel-1, -2, and -3 (OLCI & SLSTR) satellites, processing their native 10 m to 1000 m resolutions in a single model. We pre-train THOR with a novel randomized patch and input image size strategy. This allows a single set of pre-trained weights to be deployed at inference with any patch size, enabling a dynamic trade-off between computational cost and feature resolution without retraining. We pre-train THOR on THOR Pretrain, a new, large-scale multi-sensor dataset and demonstrate state-of-the-art performance on downstream benchmarks, particularly in data-limited regimes like the PANGAEA 10% split, validating that THOR's flexible feature generation excels for diverse climate and society applications.

THOR: A Versatile Foundation Model for Earth Observation Climate and Society Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理