SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

📄 arXiv: 2510.27219v1 📥 PDF

作者: Renjie Ji, Xue Wang, Chao Niu, Wen Zhang, Yong Mei, Kun Tan

分类: cs.CV

发布日期: 2025-10-31


💡 一句话要点

SpecAware:一种光谱内容感知的基础模型,用于统一高光谱遥感制图中的多传感器学习。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高光谱遥感 基础模型 多传感器学习 超网络 语义分割

📋 核心要点

  1. 现有高光谱图像处理方法忽略了传感器元属性的指导作用,且难以进行多传感器联合训练,限制了模型泛化能力。
  2. SpecAware通过超网络驱动的编码过程,融合传感器元属性和图像内容,自适应地提取空间光谱特征,实现多传感器统一学习。
  3. 实验结果表明,SpecAware在土地覆盖语义分割、变化检测和场景分类等任务上表现出色,证明了其优越的特征表示能力。

📝 摘要(中文)

高光谱成像(HSI)是精细土地利用和土地覆盖(LULC)制图的重要工具。然而,HSI数据固有的异质性长期以来一直是开发通过联合训练的通用模型的重大障碍。虽然HSI基础模型已显示出对不同下游任务的希望,但现有方法通常忽略了传感器元属性的关键指导作用,并且难以进行多传感器训练,从而限制了其可转移性。为了应对这些挑战,我们提出了SpecAware,这是一种新颖的高光谱光谱内容感知基础模型,用于统一HSI制图的多传感器学习。我们还构建了Hyper-400K数据集以促进这项研究,这是一个新的大规模、高质量的基准数据集,包含来自各种机载AVIRIS传感器的超过40万个图像块。SpecAware的核心是用于HSI数据的两步超网络驱动的编码过程。首先,我们设计了一个元内容感知模块,通过融合传感器元属性及其自身的图像内容,为每个HSI图像块生成一个独特的条件输入,该输入针对每个样本的每个光谱带量身定制。其次,我们设计了HyperEmbedding模块,其中样本条件超网络动态生成一对用于通道编码的矩阵因子,包括自适应空间模式提取和潜在语义特征重投影。因此,SpecAware获得了感知和解释跨不同场景和传感器的空间光谱特征的能力。反过来,这使得SpecAware能够自适应地处理可变数量的光谱通道,从而建立一个用于联合预训练的统一框架。在六个数据集上的大量实验表明,SpecAware可以学习卓越的特征表示,在土地覆盖语义分割分类、变化检测和场景分类方面表现出色。

🔬 方法详解

问题定义:高光谱遥感图像处理面临的挑战在于不同传感器获取的数据存在异质性,导致模型难以泛化。现有方法通常忽略传感器自身的元信息,无法有效利用多源数据进行联合训练,限制了模型在不同场景下的应用能力。

核心思路:SpecAware的核心思想是利用超网络动态生成针对每个高光谱图像块的编码参数,从而实现对不同传感器和场景的自适应特征提取。通过融合传感器元属性和图像内容,模型能够感知光谱信息,并根据输入数据的特性调整编码方式,从而提高模型的泛化能力。

技术框架:SpecAware包含两个主要模块:元内容感知模块和HyperEmbedding模块。首先,元内容感知模块将传感器元属性和图像内容融合,为每个高光谱图像块生成一个独特的条件输入。然后,HyperEmbedding模块利用样本条件超网络动态生成一对矩阵因子,用于通道编码,实现自适应空间模式提取和潜在语义特征重投影。整个框架支持可变数量的光谱通道,从而实现多传感器数据的统一预训练。

关键创新:SpecAware的关键创新在于其光谱内容感知能力和超网络驱动的动态编码方式。通过融合传感器元属性和图像内容,模型能够更好地理解高光谱数据的特性,并根据输入数据的特性自适应地调整编码方式。超网络的使用使得模型能够动态生成编码参数,从而提高模型的灵活性和泛化能力。

关键设计:元内容感知模块的设计旨在将传感器元属性有效地融入到图像特征中。HyperEmbedding模块中的超网络结构允许模型根据输入样本动态生成编码矩阵,从而实现自适应的特征提取。损失函数的设计需要考虑不同任务的需求,例如,在语义分割任务中可以使用交叉熵损失函数,在变化检测任务中可以使用对比损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpecAware在六个数据集上进行了广泛的实验,结果表明其在土地覆盖语义分割、变化检测和场景分类等任务上均取得了显著的性能提升。例如,在土地覆盖语义分割任务中,SpecAware相比于现有方法取得了X%的性能提升(具体数值请查阅原文),证明了其优越的特征表示能力和泛化能力。

🎯 应用场景

SpecAware在高光谱遥感领域具有广泛的应用前景,可用于精细土地利用和土地覆盖制图、精准农业、环境监测、灾害评估等领域。该模型能够有效利用多源高光谱数据,提高遥感图像的解译精度和效率,为相关领域的决策提供有力支持,并促进遥感技术的进一步发展。

📄 摘要(原文)

Hyperspectral imaging (HSI) is a vital tool for fine-grained land-use and land-cover (LULC) mapping. However, the inherent heterogeneity of HSI data has long posed a major barrier to developing generalized models via joint training. Although HSI foundation models have shown promise for different downstream tasks, the existing approaches typically overlook the critical guiding role of sensor meta-attributes, and struggle with multi-sensor training, limiting their transferability. To address these challenges, we propose SpecAware, which is a novel hyperspectral spectral-content aware foundation model for unifying multi-sensor learning for HSI mapping. We also constructed the Hyper-400K dataset to facilitate this research, which is a new large-scale, high-quality benchmark dataset with over 400k image patches from diverse airborne AVIRIS sensors. The core of SpecAware is a two-step hypernetwork-driven encoding process for HSI data. Firstly, we designed a meta-content aware module to generate a unique conditional input for each HSI patch, tailored to each spectral band of every sample by fusing the sensor meta-attributes and its own image content. Secondly, we designed the HyperEmbedding module, where a sample-conditioned hypernetwork dynamically generates a pair of matrix factors for channel-wise encoding, consisting of adaptive spatial pattern extraction and latent semantic feature re-projection. Thus, SpecAware gains the ability to perceive and interpret spatial-spectral features across diverse scenes and sensors. This, in turn, allows SpecAware to adaptively process a variable number of spectral channels, establishing a unified framework for joint pre-training. Extensive experiments on six datasets demonstrate that SpecAware can learn superior feature representations, excelling in land-cover semantic segmentation classification, change detection, and scene classification.