SpectralEarth-FM: Bringing Hyperspectral Imagery into Multimodal Earth Observation Pretraining

作者: Nassim Ait Ali Braham, Aaron Banze, Conrad M. Albrecht, Julien Mairal, Jocelyn Chanussot, Xiao Xiang Zhu

分类: cs.CV, cs.LG

发布日期: 2026-05-20

💡 一句话要点

提出SpectralEarth-FM，用于高光谱影像与多模态地球观测数据的联合预训练。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 高光谱影像 多模态学习 地球观测 预训练模型 Transformer

📋 核心要点

现有地球观测基础模型较少关注高光谱影像，而高光谱影像基础模型又缺乏与其他地球观测传感器的联合预训练。
SpectralEarth-FM通过分层Transformer架构，结合谱token化、传感器特定编码器和跨传感器融合模块，实现HSI与其他EO数据的联合处理。
SpectralEarth-FM在自建的SpectralEarth-MM数据集上进行预训练，并在下游任务中取得了state-of-the-art的结果。

📝 摘要（中文）

本文提出SpectralEarth-FM，一种用于多传感器地球观测数据的分层Transformer模型，旨在解决高光谱影像（HSI）在多模态地球观测（EO）预训练中代表性不足的问题。该架构结合了高光谱输入的谱token化、传感器特定的编码器、跨传感器融合模块以及共享的分层编码器，从而能够联合处理HSI和低通道观测数据。为了预训练SpectralEarth-FM，我们构建了SpectralEarth-MM数据集，该数据集将来自三个星载传感器（EnMAP、EMIT、DESIS）的HSI与Sentinel-2、Landsat-8/9光学影像、Landsat地表温度（LST）和Sentinel-1 SAR数据在共同的地理区域进行配准。该数据集包含约200万个全球分布的位置，2500万个地理参考图像块和超过40TB的数据。预训练采用联合嵌入预测架构（JEPA）风格的目标，该目标匹配来自同一位置的全局视图和单传感器局部视图之间的表示。我们在高光谱下游任务和遵循PANGAEA协议的标准EO基准上评估了SpectralEarth-FM，并在两种评估设置中均实现了最先进的结果。

🔬 方法详解

问题定义：现有地球观测（EO）基础模型主要集中在多光谱影像（MSI）、合成孔径雷达（SAR）和衍生地理空间图层上，而高光谱影像（HSI）的代表性不足。另一方面，现有的高光谱基础模型通常仅在高光谱数据上进行训练，缺乏与协同定位的EO传感器进行联合预训练和融合。这限制了模型对地球表面复杂现象的理解能力，无法充分利用不同传感器之间的互补信息。

核心思路：SpectralEarth-FM的核心思路是通过一种分层Transformer架构，实现对具有异构谱维度的多传感器EO数据的联合处理。该架构旨在弥合高光谱数据与其他EO数据之间的差距，从而构建更强大的地球观测基础模型。通过联合预训练，模型可以学习到跨传感器的共享表示，从而提高在各种下游任务中的性能。

技术框架：SpectralEarth-FM的整体架构包含以下主要模块：1) 谱Token化模块：用于处理高光谱输入，将其转换为token序列。2) 传感器特定编码器：为每个传感器（例如，EnMAP、Sentinel-2、SAR）设计独立的编码器，以提取特定于传感器的特征。3) 跨传感器融合模块：将来自不同传感器的特征进行融合，以捕获传感器之间的相关性。4) 共享分层编码器：一个分层的Transformer编码器，用于学习跨传感器的共享表示。预训练采用联合嵌入预测架构（JEPA）风格的目标。

关键创新：SpectralEarth-FM的关键创新在于其能够有效地处理具有异构谱维度的多传感器EO数据。通过谱token化和传感器特定编码器，模型能够适应不同传感器的特性。跨传感器融合模块和共享分层编码器的设计，使得模型能够学习到跨传感器的共享表示，从而提高泛化能力。此外，SpectralEarth-MM数据集的构建也为多模态EO预训练提供了宝贵的数据资源。

关键设计：SpectralEarth-FM的关键设计包括：1) 谱Token化：将高光谱数据分割成小的谱带，并将每个谱带视为一个token。2) 传感器特定编码器：使用不同的卷积神经网络或Transformer编码器来处理不同传感器的输入。3) 跨传感器融合模块：可以使用注意力机制或简单的连接操作来融合来自不同传感器的特征。4) 联合嵌入预测架构（JEPA）：使用JEPA风格的预训练目标，鼓励模型学习到全局视图和局部视图之间的一致性表示。损失函数的设计旨在最大化全局视图和局部视图之间的互信息。

🖼️ 关键图片

📊 实验亮点

SpectralEarth-FM在多个高光谱下游任务和标准EO基准测试中取得了state-of-the-art的结果。具体而言，该模型在遵循PANGAEA协议的评估中，显著优于现有的高光谱和多模态EO模型。这些结果表明，SpectralEarth-FM能够有效地利用高光谱影像和其他EO数据，从而提高各种地球观测任务的性能。

🎯 应用场景

SpectralEarth-FM可应用于多种地球观测任务，例如土地覆盖分类、作物类型识别、环境监测和灾害评估。通过融合高光谱影像和其他EO数据，该模型能够提供更全面和准确的地球表面信息，从而支持更有效的资源管理和决策制定。未来，该模型可以扩展到更多传感器和更大的数据集，以构建更强大的地球观测基础模型。

📄 摘要（原文）

Earth observation (EO) foundation models (FMs) are increasingly trained on multisensor data, spanning multispectral imagery (MSI), synthetic aperture radar (SAR), and derived geospatial layers, but hyperspectral imagery (HSI) remains underrepresented. Conversely, existing hyperspectral FMs are trained on HSI alone, leaving joint pretraining and fusion of HSI with co-located EO sensors unexplored. We introduce SpectralEarth-FM, a hierarchical transformer for multisensor EO input with heterogeneous spectral dimensionality. The architecture combines spectral tokenization for hyperspectral inputs, sensor-specific encoders, a cross-sensor fusion module, and a shared hierarchical encoder, enabling joint processing of HSI and lower-channel observations. To pretrain SpectralEarth-FM, we curate SpectralEarth-MM, a dataset that co-locates HSI from three spaceborne sensors (EnMAP, EMIT, DESIS) with Sentinel-2, Landsat-8/9 optical imagery, Landsat land surface temperature (LST), and Sentinel-1 SAR, over common geographic footprints. It comprises approximately 2M globally distributed locations, 25M georeferenced patches, and over 40TB of data. Pretraining uses a Joint-Embedding Predictive Architecture (JEPA)-style objective that matches representations between global views and single-sensor local views from the same location. We evaluate SpectralEarth-FM on hyperspectral downstream tasks and standard EO benchmarks following the PANGAEA protocol, achieving state-of-the-art results across both evaluation settings.

SpectralEarth-FM: Bringing Hyperspectral Imagery into Multimodal Earth Observation Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理