Cross-Domain Transfer of Hyperspectral Foundation Models

作者: Nick Theisen, Peer Neubert

分类: cs.CV

发布日期: 2026-04-29

备注: Accepted for publication at ICPR 2026

💡 一句话要点

提出跨域迁移高光谱基础模型，提升近端遥感语义分割性能

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 高光谱图像 语义分割 跨域迁移 基础模型 近端遥感

📋 核心要点

现有高光谱图像语义分割方法依赖域内数据，数据量不足限制模型泛化能力。
提出跨域迁移策略，将遥感领域训练的高光谱基础模型迁移到近端遥感应用。
实验表明，该方法显著提升了分割性能，尤其在数据量有限的情况下表现出色。

📝 摘要（中文）

高光谱图像（HSI）语义分割通常依赖于域内训练，但有限的数据可用性限制了模型在实际应用中的性能。目前利用遥感领域基础模型的方法通常采用跨模态技术，桥接RGB和HSI以利用视觉基础模型。然而，这些方法要么丢弃光谱信息，要么引入架构复杂性。我们提出跨域迁移作为一种替代方案，重用最初在遥感中训练的HSI基础模型，用于近端遥感应用。通过消除桥接模态差距的需求，我们的方法在保持简单架构的同时保留了光谱信息。使用HS3-Bench基准，我们系统地评估和比较了传统的域内、同模态训练、跨模态迁移和跨域迁移策略。结果表明，跨域迁移在域内、同模态训练的基础上实现了显著的性能提升，缩小了与跨模态方法的性能差距，并在有限数据设置中保持了强大的性能。因此，这项工作推进了在各种应用中更有效的高光谱图像语义分割。

🔬 方法详解

问题定义：高光谱图像语义分割任务中，近端遥感应用往往缺乏足够的标注数据，导致模型训练困难，泛化能力差。现有方法尝试利用RGB图像的视觉基础模型，但需要进行跨模态转换，损失光谱信息或增加模型复杂度。

核心思路：核心在于利用已经在遥感领域训练好的高光谱基础模型，直接迁移到近端遥感应用中。避免了跨模态转换带来的信息损失和模型复杂性，充分利用了高光谱图像的光谱信息。

技术框架：该方法的核心是直接使用遥感领域训练好的高光谱基础模型，例如基于Transformer的模型，然后在近端遥感数据集上进行微调。整体流程简单，无需复杂的跨模态转换模块。主要分为两个阶段：1) 在大规模遥感数据集上预训练高光谱基础模型；2) 在目标近端遥感数据集上微调模型。

关键创新：关键创新在于提出了跨域迁移的思路，避免了跨模态转换，保留了高光谱图像的光谱信息，同时保持了模型的简洁性。与现有方法相比，该方法更直接、更有效。

关键设计：具体实现中，可以选择不同的高光谱基础模型架构，例如基于Transformer或CNN的模型。微调阶段，可以使用不同的损失函数，例如交叉熵损失或Dice损失。超参数的选择，例如学习率、batch size等，需要根据具体数据集进行调整。

🖼️ 关键图片

📊 实验亮点

在HS3-Bench基准测试中，跨域迁移方法显著优于传统的域内训练方法，性能提升明显。与跨模态迁移方法相比，缩小了性能差距，并在有限数据情况下表现出更强的鲁棒性。实验结果验证了跨域迁移策略的有效性。

🎯 应用场景

该研究成果可广泛应用于农业、林业、环境监测等领域。例如，可以用于农作物病虫害检测、森林植被类型识别、水体污染监测等。通过提升高光谱图像语义分割的精度和效率，可以为这些应用提供更可靠的技术支持，具有重要的实际价值和应用前景。

📄 摘要（原文）

Hyperspectral imaging (HSI) semantic segmentation typically relies on in-domain training, but limited data availability often restricts model performance in real-world applications. Current approaches to leverage foundation models in proximal sensing use cross-modality techniques, bridging RGB and HSI to exploit vision foundation models. However, these methods either discard spectral information or introduce architectural complexity. We propose cross-domain transfer as an alternative, reusing HSI foundation models - originally trained in remote sensing - for proximal sensing applications. By eliminating the need to bridge modality gaps, our approach preserves spectral information while maintaining a simple architecture. Using the HS3-Bench benchmark, we systematically evaluate and compare conventional in-domain, in-modality training, cross-modality transfer and cross-domain transfer strategies. Our results demonstrate that cross-domain transfer achieves large performance improvements over in-domain, in-modality training, reduces the performance gap to cross-modality approaches and maintains strong performance in limited data settings. Thus, this work advances more effective HSI semantic segmentation in diverse applications.

Cross-Domain Transfer of Hyperspectral Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理