Parameter-Efficient Fine-Tuning of Multispectral Foundation Models for Hyperspectral Image Classification
作者: Bernardin Ligan, Khalide Jbilou, Fahd Kalloubi, Ahmed Ratnani
分类: cs.CV
发布日期: 2025-05-21
备注: 33 pages, 14 figures
💡 一句话要点
提出KronA+方法,高效微调多光谱预训练模型SpectralGPT用于高光谱图像分类。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 高光谱图像分类 参数高效微调 预训练模型 Kronecker分解 SpectralGPT
📋 核心要点
- 高光谱图像分类任务对计算资源需求大,直接微调多光谱预训练模型成本高昂,缺乏效率。
- 受LoRA+启发,提出KronA+方法,通过对Kronecker矩阵应用不同的学习率,提升参数高效微调的性能。
- 实验表明,KronA+在保持竞争力的同时,显著减少了可训练参数和存储需求,提升了微调效率。
📝 摘要(中文)
本文提出了一种高效的框架,用于微调多光谱预训练模型SpectralGPT,以进行高光谱图像分类(HSIC)。我们探索了几种参数高效微调(PEFT)方法,包括低秩适应(LoRA)、基于Kronecker的适应(KronA)、低秩Kronecker(LoKr)以及最近的LoRA+,后者对低秩适配器使用不同的学习率,并按因子lambda缩放。受LoRA+的启发,我们引入了KronA+,它将类似的机制应用于Kronecker矩阵。我们在来自不同传感器的五个数据集上评估了我们的方法,结果表明其性能与最先进的HSI模型具有竞争力。我们的全微调(FFT)设置在某些数据集上甚至优于专门的高光谱基础模型,同时仅需要四分之一的训练周期。在相同epoch下,KronA+以远少于0.056%的可训练参数达到了相似的性能,并且仅增加了大约0.2兆字节的存储空间,使其成为测试中最有效的PEFT方法。
🔬 方法详解
问题定义:论文旨在解决将多光谱预训练模型应用于高光谱图像分类任务时,全参数微调带来的计算资源消耗大、存储需求高的问题。现有方法,如直接微调或使用专门的高光谱模型,要么效率低下,要么缺乏通用性。
核心思路:论文的核心思路是利用参数高效微调(PEFT)技术,特别是受LoRA+启发提出的KronA+方法,在尽可能少地引入额外参数的情况下,使多光谱预训练模型适应高光谱图像的特性。通过对Kronecker矩阵应用不同的学习率,增强模型的表达能力,同时保持较低的计算成本。
技术框架:整体框架包括以下步骤:1) 使用SpectralGPT等多光谱预训练模型作为基础;2) 应用不同的PEFT方法,包括LoRA, KronA, LoKr, LoRA+和提出的KronA+;3) 在高光谱图像数据集上进行微调;4) 评估分类性能和参数效率。KronA+作为核心模块,嵌入到微调过程中,负责调整预训练模型的参数。
关键创新:论文的关键创新在于KronA+方法,它将LoRA+的思想扩展到Kronecker矩阵。具体来说,KronA+为Kronecker矩阵的不同部分分配不同的学习率,并通过一个缩放因子lambda进行调整。这种方法允许模型更精细地调整参数,从而提高性能,同时保持参数效率。
关键设计:KronA+的关键设计包括:1) 使用Kronecker分解来降低参数量;2) 为Kronecker矩阵的不同部分分配不同的学习率;3) 使用缩放因子lambda来控制学习率的调整幅度。具体参数设置包括lambda的值,以及Kronecker分解的秩。损失函数通常采用交叉熵损失,网络结构基于SpectralGPT的Transformer架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KronA+方法在五个高光谱图像数据集上取得了与最先进方法相媲美的性能,同时显著降低了可训练参数的数量(仅为0.056%)和存储需求(仅增加约0.2MB)。在相同训练周期下,KronA+的性能与全参数微调相当,甚至在某些数据集上超过了专门的高光谱基础模型。
🎯 应用场景
该研究成果可应用于遥感图像分析、环境监测、精准农业等领域。通过高效微调多光谱预训练模型,可以快速适应不同传感器和场景下的高光谱图像分类任务,降低模型部署和维护成本,加速相关领域的智能化应用。
📄 摘要(原文)
Foundation models have achieved great success across diverse domains, including remote sensing (RS), thanks to their versatility and strong generalization abilities. However, most RS foundation models are designed for multispectral data, while hyperspectral imagery (HSI) - with its hundreds of spectral bands - remains less explored. Fine-tuning such models for downstream tasks is also challenging, often demanding considerable memory and storage. In this paper, we propose an efficient framework to fine-tune SpectralGPT, a multispectral foundation model, for hyperspectral image classification (HSIC). We explore several Parameter-Efficient Fine-Tuning (PEFT) methods, including Low-Rank Adaptation (LoRA), Kronecker-based adaptation (KronA), Low-Rank Kronecker (LoKr), and the recent LoRA+, which uses distinct learning rates for low-rank adapters scaled by a factor lambda. Inspired by LoRA+, we introduce KronA+, which applies a similar mechanism to the Kronecker matrices. We evaluate our approach on five datasets from different sensors, showing competitive performance with state-of-the-art HSI models. Our full fine-tuning (FFT) setup for SpectralGPT even outperforms a dedicated hyperspectral foundation model on some datasets while requiring only a quarter of the training epochs. Under the same number of epochs, KronA+ reaches similar performance with far fewer trainable parameters - just 0.056 percent - and adds only approximately 0.2 megabytes of storage, making it the most effective PEFT method tested.