Cross-Domain Few-Shot Learning for Hyperspectral Image Classification Based on Mixup Foundation Model

📄 arXiv: 2601.22581v1 📥 PDF

作者: Naeem Paeedeh, Mahardhika Pratama, Ary Shiddiqi, Zehong Cao, Mukesh Prasad, Wisnu Jatmiko

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-01-30


💡 一句话要点

提出基于Mixup基础模型的MIFOMO,用于高光谱图像跨域少样本分类。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高光谱图像分类 跨域少样本学习 遥感基础模型 Mixup数据增强 领域自适应

📋 核心要点

  1. 现有CDFSL方法依赖不真实的噪声数据增强,忽略了数据稀缺的本质,且模型参数量大,容易过拟合。
  2. MIFOMO利用遥感基础模型,通过coalescent projection快速适应下游任务,并提出mixup domain adaptation解决域差异。
  3. 实验结果表明,MIFOMO在CDFSL任务上显著优于现有方法,性能提升高达14%。

📝 摘要(中文)

针对高光谱图像(HSI)分类的跨域少样本学习(CDFSL)问题,现有方法依赖于不切实际的外部噪声数据增强,简化了数据稀缺问题,且模型参数量大,易过拟合。本文提出了MIxup FOundation MOdel (MIFOMO),利用大规模遥感(RS)问题上预训练的基础模型,具备更强的泛化能力。引入coalescent projection (CP)快速适应下游任务,同时冻结骨干网络。提出mixup domain adaptation (MDM)解决极端域差异问题。最后,采用标签平滑处理噪声伪标签问题。实验表明,MIFOMO优于现有技术,性能提升高达14%。代码已开源。

🔬 方法详解

问题定义:论文旨在解决高光谱图像跨域少样本学习(CDFSL)问题。现有方法主要痛点在于:依赖于不真实的外部噪声进行数据增强,这并不能有效解决数据稀缺问题,反而简化了问题难度;模型参数量大,在少样本情况下容易过拟合;缺乏利用大规模预训练模型(基础模型)的泛化能力。

核心思路:论文的核心思路是利用在大规模遥感数据集上预训练的基础模型,学习通用的遥感特征表示,然后通过少量样本快速适应目标领域。通过冻结基础模型的骨干网络,减少可训练参数,防止过拟合。同时,采用Mixup Domain Adaptation (MDM)策略,缓解源域和目标域之间的差异。

技术框架:MIFOMO的整体框架包括以下几个主要模块:1) 遥感基础模型:使用在大规模遥感数据集上预训练的模型,提取高光谱图像的通用特征。2) Coalescent Projection (CP):用于将基础模型的特征快速适应到目标领域,同时冻结骨干网络,减少训练参数。3) Mixup Domain Adaptation (MDM):通过在源域和目标域之间进行Mixup操作,生成新的样本,从而缓解域差异。4) 标签平滑:用于处理伪标签中的噪声,提高模型的鲁棒性。

关键创新:论文的关键创新点在于:1) 首次将遥感基础模型应用于高光谱图像的跨域少样本学习。2) 提出了Coalescent Projection (CP)方法,能够快速将基础模型适应到下游任务,同时避免过拟合。3) 提出了Mixup Domain Adaptation (MDM)策略,有效缓解了源域和目标域之间的差异。

关键设计:Coalescent Projection (CP)的具体实现方式未知,论文中可能没有详细描述。Mixup Domain Adaptation (MDM)的具体实现方式可能是对源域和目标域的样本进行线性插值,生成新的样本。标签平滑的具体实现方式可能是对标签进行软化,例如将one-hot编码的标签替换为概率分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MIFOMO在多个高光谱图像数据集上取得了显著的性能提升,相比现有方法,性能提升高达14%。这表明MIFOMO能够有效利用基础模型的泛化能力,并克服跨域少样本学习中的挑战。

🎯 应用场景

该研究成果可应用于遥感图像智能解译、地物分类、农作物监测、灾害评估等领域。通过利用少量标注样本,即可快速构建高精度的分类模型,降低人工标注成本,提高遥感数据处理效率,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Although cross-domain few-shot learning (CDFSL) for hyper-spectral image (HSI) classification has attracted significant research interest, existing works often rely on an unrealistic data augmentation procedure in the form of external noise to enlarge the sample size, thus greatly simplifying the issue of data scarcity. They involve a large number of parameters for model updates, being prone to the overfitting problem. To the best of our knowledge, none has explored the strength of the foundation model, having strong generalization power to be quickly adapted to downstream tasks. This paper proposes the MIxup FOundation MOdel (MIFOMO) for CDFSL of HSI classifications. MIFOMO is built upon the concept of a remote sensing (RS) foundation model, pre-trained across a large scale of RS problems, thus featuring generalizable features. The notion of coalescent projection (CP) is introduced to quickly adapt the foundation model to downstream tasks while freezing the backbone network. The concept of mixup domain adaptation (MDM) is proposed to address the extreme domain discrepancy problem. Last but not least, the label smoothing concept is implemented to cope with noisy pseudo-label problems. Our rigorous experiments demonstrate the advantage of MIFOMO, where it beats prior arts with up to 14% margin. The source code of MIFOMO is open-sourced in https://github.com/Naeem- Paeedeh/MIFOMO for reproducibility and convenient further study.