Benchmarking foundation models for hyperspectral image classification: Application to cereal crop type mapping

📄 arXiv: 2510.11576v2 📥 PDF

作者: Walid Elbarz, Mohamed Bourriz, Hicham Hajji, Hamd Ait Abdelali, François Bourzeix

分类: cs.CV

发布日期: 2025-10-13 (更新: 2025-10-14)

备注: currently being reviewed for WHISPERS conference ( Workshop on Hyperspectral Image and Signal Processing: Evolution in Remote Sensing )


💡 一句话要点

基准测试基础模型用于高光谱图像分类,应用于谷类作物类型mapping

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高光谱图像分类 基础模型 Vision Transformer 作物mapping 迁移学习

📋 核心要点

  1. 现有方法在高光谱作物mapping中泛化能力不足,难以适应不同地区和传感器平台。
  2. 论文探索了三种基础模型,通过在大型高光谱数据集上预训练,提升模型对高光谱数据的理解能力。
  3. 实验表明,SpectralEarth模型在高光谱作物mapping中表现出色,OA达到93.5%,验证了预训练的有效性。

📝 摘要(中文)

本研究旨在探索基础模型在高光谱作物mapping中的潜力,并对三种基础模型进行了基准测试:HyperSigma、DOFA以及在SpectralEarth数据集上预训练的Vision Transformers。这些模型在人工标注的训练区域数据上进行微调,并在独立的测试区域进行评估。评估指标包括总体精度(OA)、平均精度(AA)和F1分数。实验结果表明,HyperSigma的OA为34.5% (+/- 1.8%),DOFA的OA为62.6% (+/- 3.5%),而SpectralEarth模型的OA达到了93.5% (+/- 0.8%)。一个从头开始训练的紧凑型SpectralEarth变体也取得了91%的OA,突出了模型架构对于跨地理区域和传感器平台泛化能力的重要性。该研究为高光谱作物mapping的基础模型选择提供了系统评估,并为未来的模型开发指明了方向。

🔬 方法详解

问题定义:论文旨在解决高光谱图像分类中,现有模型泛化能力差,难以适应不同地理区域和传感器平台的问题。现有的方法通常依赖于特定数据集的训练,缺乏跨区域和跨传感器的适应性,限制了其在实际应用中的价值。

核心思路:论文的核心思路是利用在大规模高光谱数据集上预训练的基础模型,学习通用的高光谱特征表示,从而提高模型在不同区域和传感器上的泛化能力。通过迁移学习,将预训练模型的知识迁移到目标任务上,减少对目标任务标注数据的依赖。

技术框架:整体框架包括三个主要步骤:1) 选择或构建基础模型(HyperSigma, DOFA, SpectralEarth ViT);2) 在大规模高光谱数据集(SpectralEarth)上进行预训练(对于SpectralEarth ViT);3) 在目标区域的标注数据上进行微调。评估阶段在独立的测试区域进行,使用总体精度(OA)、平均精度(AA)和F1分数作为评估指标。

关键创新:论文的关键创新在于系统性地评估了不同类型的基础模型在高光谱图像分类任务中的性能,并验证了在大规模高光谱数据集上预训练的Vision Transformer模型在作物mapping中的有效性。此外,论文还探索了紧凑型模型架构的潜力,证明了在保证性能的同时,可以降低模型的计算复杂度。

关键设计:SpectralEarth模型采用Vision Transformer架构,利用自注意力机制捕捉高光谱图像中的长程依赖关系。预训练阶段使用SpectralEarth数据集,包含多时相高光谱数据,以学习鲁棒的光谱特征表示。微调阶段使用目标区域的少量标注数据,调整模型参数以适应特定任务。实验中,对比了不同模型的性能,并分析了模型架构和预训练数据对结果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在SpectralEarth数据集上预训练的Vision Transformer模型(SpectralEarth)在高光谱作物mapping中取得了显著的性能提升,OA达到93.5%。即使是从头开始训练的紧凑型SpectralEarth变体,也取得了91%的OA,表明模型架构对于泛化能力至关重要。相比之下,HyperSigma和DOFA模型的性能相对较低,表明预训练策略和模型架构的选择对高光谱图像分类至关重要。

🎯 应用场景

该研究成果可应用于精准农业领域,实现对农作物类型的自动mapping和监测,为农业生产提供决策支持。通过高光谱图像分析,可以获取农作物的生长状态、健康状况等信息,从而优化施肥、灌溉等管理措施,提高农作物产量和质量。此外,该技术还可应用于生态环境监测、自然灾害评估等领域。

📄 摘要(原文)

Foundation models are transforming Earth observation, but their potential for hyperspectral crop mapping remains underexplored. This study benchmarks three foundation models for cereal crop mapping using hyperspectral imagery: HyperSigma, DOFA, and Vision Transformers pre-trained on the SpectralEarth dataset (a large multitemporal hyperspectral archive). Models were fine-tuned on manually labeled data from a training region and evaluated on an independent test region. Performance was measured with overall accuracy (OA), average accuracy (AA), and F1-score. HyperSigma achieved an OA of 34.5% (+/- 1.8%), DOFA reached 62.6% (+/- 3.5%), and the SpectralEarth model achieved an OA of 93.5% (+/- 0.8%). A compact SpectralEarth variant trained from scratch achieved 91%, highlighting the importance of model architecture for strong generalization across geographic regions and sensor platforms. These results provide a systematic evaluation of foundation models for operational hyperspectral crop mapping and outline directions for future model development.