Cross-Domain Transfer of Hyperspectral Foundation Models

📄 arXiv: 2604.26478v1 📥 PDF

作者: Nick Theisen, Peer Neubert

分类: cs.CV

发布日期: 2026-04-29

备注: Accepted for publication at ICPR 2026


💡 一句话要点

提出跨域迁移高光谱基础模型,提升近端遥感语义分割性能

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高光谱图像 语义分割 跨域迁移 基础模型 近端遥感

📋 核心要点

  1. 现有高光谱图像语义分割方法依赖域内数据,数据量不足限制模型泛化能力。
  2. 提出跨域迁移策略,将遥感领域训练的高光谱基础模型迁移到近端遥感应用。
  3. 实验表明,该方法显著提升了分割性能,尤其在数据量有限的情况下表现出色。

📝 摘要(中文)

高光谱图像(HSI)语义分割通常依赖于域内训练,但有限的数据可用性限制了模型在实际应用中的性能。目前利用遥感领域基础模型的方法通常采用跨模态技术,桥接RGB和HSI以利用视觉基础模型。然而,这些方法要么丢弃光谱信息,要么引入架构复杂性。我们提出跨域迁移作为一种替代方案,重用最初在遥感中训练的HSI基础模型,用于近端遥感应用。通过消除桥接模态差距的需求,我们的方法在保持简单架构的同时保留了光谱信息。使用HS3-Bench基准,我们系统地评估和比较了传统的域内、同模态训练、跨模态迁移和跨域迁移策略。结果表明,跨域迁移在域内、同模态训练的基础上实现了显著的性能提升,缩小了与跨模态方法的性能差距,并在有限数据设置中保持了强大的性能。因此,这项工作推进了在各种应用中更有效的高光谱图像语义分割。

🔬 方法详解

问题定义:高光谱图像语义分割任务中,近端遥感应用往往缺乏足够的标注数据,导致模型训练困难,泛化能力差。现有方法尝试利用RGB图像的视觉基础模型,但需要进行跨模态转换,损失光谱信息或增加模型复杂度。

核心思路:核心在于利用已经在遥感领域训练好的高光谱基础模型,直接迁移到近端遥感应用中。避免了跨模态转换带来的信息损失和模型复杂性,充分利用了高光谱图像的光谱信息。

技术框架:该方法的核心是直接使用遥感领域训练好的高光谱基础模型,例如基于Transformer的模型,然后在近端遥感数据集上进行微调。整体流程简单,无需复杂的跨模态转换模块。主要分为两个阶段:1) 在大规模遥感数据集上预训练高光谱基础模型;2) 在目标近端遥感数据集上微调模型。

关键创新:关键创新在于提出了跨域迁移的思路,避免了跨模态转换,保留了高光谱图像的光谱信息,同时保持了模型的简洁性。与现有方法相比,该方法更直接、更有效。

关键设计:具体实现中,可以选择不同的高光谱基础模型架构,例如基于Transformer或CNN的模型。微调阶段,可以使用不同的损失函数,例如交叉熵损失或Dice损失。超参数的选择,例如学习率、batch size等,需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在HS3-Bench基准测试中,跨域迁移方法显著优于传统的域内训练方法,性能提升明显。与跨模态迁移方法相比,缩小了性能差距,并在有限数据情况下表现出更强的鲁棒性。实验结果验证了跨域迁移策略的有效性。

🎯 应用场景

该研究成果可广泛应用于农业、林业、环境监测等领域。例如,可以用于农作物病虫害检测、森林植被类型识别、水体污染监测等。通过提升高光谱图像语义分割的精度和效率,可以为这些应用提供更可靠的技术支持,具有重要的实际价值和应用前景。

📄 摘要(原文)

Hyperspectral imaging (HSI) semantic segmentation typically relies on in-domain training, but limited data availability often restricts model performance in real-world applications. Current approaches to leverage foundation models in proximal sensing use cross-modality techniques, bridging RGB and HSI to exploit vision foundation models. However, these methods either discard spectral information or introduce architectural complexity. We propose cross-domain transfer as an alternative, reusing HSI foundation models - originally trained in remote sensing - for proximal sensing applications. By eliminating the need to bridge modality gaps, our approach preserves spectral information while maintaining a simple architecture. Using the HS3-Bench benchmark, we systematically evaluate and compare conventional in-domain, in-modality training, cross-modality transfer and cross-domain transfer strategies. Our results demonstrate that cross-domain transfer achieves large performance improvements over in-domain, in-modality training, reduces the performance gap to cross-modality approaches and maintains strong performance in limited data settings. Thus, this work advances more effective HSI semantic segmentation in diverse applications.