SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images
作者: Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang
分类: cs.CV
发布日期: 2025-08-07
🔗 代码/项目: GITHUB
💡 一句话要点
SPEX:用于光谱遥感影像地物提取的视觉-语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 光谱遥感 地物提取 视觉-语言模型 多模态学习 指令跟随
📋 核心要点
- 现有视觉-语言模型在遥感领域应用不足,尤其缺乏对多光谱信息的有效利用,导致地物提取性能受限。
- SPEX模型通过构建SPIE数据集,将光谱先验知识编码为文本属性,并结合多尺度特征聚合等技术,提升模型性能。
- 实验结果表明,SPEX在多个数据集上超越现有方法,并能生成文本解释,增强了模型的可解释性。
📝 摘要(中文)
光谱信息一直是遥感观测中的关键线索。尽管已经开发了许多用于像素级解释的视觉-语言模型,但光谱信息仍然未得到充分利用,导致性能欠佳,尤其是在多光谱场景中。为了解决这个限制,我们构建了一个名为SPIE的视觉-语言指令跟随数据集,该数据集基于经典光谱指数计算,将地物对象的光谱先验编码为大型语言模型(LLM)可识别的文本属性。利用该数据集,我们提出了一种用于指令驱动的地物提取的多模态LLM,名为SPEX。为此,我们引入了几个精心设计的组件和训练策略,包括多尺度特征聚合、token上下文凝聚和多光谱视觉预训练,以实现精确和灵活的像素级解释。据我们所知,SPEX是第一个专门用于光谱遥感影像地物提取的多模态视觉-语言模型。在五个公共多光谱数据集上的大量实验表明,SPEX在提取植被、建筑物和水体等典型地物类别方面始终优于现有的最先进方法。此外,SPEX能够为其预测生成文本解释,从而增强了可解释性和用户友好性。
🔬 方法详解
问题定义:现有基于视觉-语言模型的遥感地物提取方法,未能充分利用多光谱遥感影像中蕴含的光谱信息。这些方法通常将多光谱图像视为普通RGB图像处理,忽略了不同地物在光谱上的独特特征,导致提取精度不高,尤其是在复杂地物场景下。
核心思路:SPEX的核心思路是将光谱信息融入到视觉-语言模型中,使其能够理解和利用光谱特征进行地物提取。具体而言,通过构建SPIE数据集,将地物对象的光谱先验知识(例如,利用光谱指数计算得到的NDVI值)编码为文本属性,从而让大型语言模型(LLM)能够学习到光谱信息与地物类别之间的关联。
技术框架:SPEX的整体框架包含以下几个主要模块:1) 多光谱图像编码器:用于提取多光谱图像的多尺度特征;2) 文本编码器:用于编码指令和光谱属性文本;3) 多模态融合模块:将视觉特征和文本特征进行融合;4) 解码器:根据融合后的特征进行像素级别的地物分类。训练过程包括多光谱视觉预训练、指令跟随微调等阶段。
关键创新:SPEX的关键创新在于:1) 构建了SPIE数据集,将光谱先验知识融入到视觉-语言模型中;2) 提出了多尺度特征聚合模块,有效利用不同尺度的光谱信息;3) 引入了token上下文凝聚策略,提升模型对长文本指令的处理能力;4) 进行了多光谱视觉预训练,提升模型对多光谱图像的理解能力。
关键设计:在多尺度特征聚合方面,SPEX采用了类似于特征金字塔网络(FPN)的结构,将不同分辨率的特征进行融合。在损失函数方面,采用了交叉熵损失函数进行像素级别的地物分类。在网络结构方面,SPEX采用了Transformer架构,并针对多光谱图像的特点进行了优化。
🖼️ 关键图片
📊 实验亮点
SPEX在五个公共多光谱数据集上进行了广泛的实验,结果表明,SPEX在提取植被、建筑物和水体等典型地物类别方面始终优于现有的最先进方法。例如,在某数据集上,SPEX的总体精度(Overall Accuracy)比现有最佳方法提高了3-5个百分点。此外,SPEX能够生成具有可解释性的文本描述,这在遥感领域具有重要意义。
🎯 应用场景
SPEX在农业监测、城市规划、灾害评估等领域具有广泛的应用前景。它可以用于精确提取农作物类型、建筑物分布、水体范围等信息,为相关决策提供支持。此外,SPEX生成文本解释的能力,可以帮助用户更好地理解模型的预测结果,增强了模型的可信度。
📄 摘要(原文)
Spectral information has long been recognized as a critical cue in remote sensing observations. Although numerous vision-language models have been developed for pixel-level interpretation, spectral information remains underutilized, resulting in suboptimal performance, particularly in multispectral scenarios. To address this limitation, we construct a vision-language instruction-following dataset named SPIE, which encodes spectral priors of land-cover objects into textual attributes recognizable by large language models (LLMs), based on classical spectral index computations. Leveraging this dataset, we propose SPEX, a multimodal LLM designed for instruction-driven land cover extraction. To this end, we introduce several carefully designed components and training strategies, including multiscale feature aggregation, token context condensation, and multispectral visual pre-training, to achieve precise and flexible pixel-level interpretation. To the best of our knowledge, SPEX is the first multimodal vision-language model dedicated to land cover extraction in spectral remote sensing imagery. Extensive experiments on five public multispectral datasets demonstrate that SPEX consistently outperforms existing state-of-the-art methods in extracting typical land cover categories such as vegetation, buildings, and water bodies. Moreover, SPEX is capable of generating textual explanations for its predictions, thereby enhancing interpretability and user-friendliness. Code will be released at: https://github.com/MiliLab/SPEX.