HyperFree: A Channel-adaptive and Tuning-free Foundation Model for Hyperspectral Remote Sensing Imagery
作者: Jingtao Li, Yingyi Liu, Xinyu Wang, Yunning Peng, Chen Sun, Shaoyu Wang, Zhendong Sun, Tian Ke, Xiao Jiang, Tangwei Lu, Anran Zhao, Yanfei Zhong
分类: cs.CV
发布日期: 2025-03-27
备注: Accepted by CVPR2025
💡 一句话要点
提出HyperFree:一种通道自适应、免调参的高光谱遥感图像基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 高光谱遥感 基础模型 免调参学习 通道自适应 视觉提示工程
📋 核心要点
- 现有视觉基础模型在处理高光谱遥感图像时,由于通道数量和光谱范围差异大,需要针对每张图像进行调整,耗费大量资源。
- HyperFree通过设计通道自适应的嵌入层和语义感知的掩码生成方法,实现了免调参的高光谱图像处理,降低了计算成本。
- 实验表明,仅使用1个提示的HyperFree模型,在多个任务和数据集上,性能可与经过5次微调的专用模型相媲美。
📝 摘要(中文)
本文提出了一种免调参的高光谱基础模型HyperFree,旨在解决现有视觉基础模型在高光谱遥感图像应用中,因通道差异大而需要逐图像调整的问题。HyperFree通过调整现有的视觉提示工程来实现这一目标。为了处理不同的通道数量,设计了一个学习权重字典,覆盖了0.4~2.5μm的全光谱范围,支持动态构建嵌入层。为了使提示设计更易于处理,HyperFree通过将特征距离视为语义相似性,为一个提示生成多个语义感知的掩码。在构建的大规模高分辨率高光谱图像上进行预训练后,HyperFree(1个提示)在5个任务和11个数据集上表现出与专门模型(5次微调)相当的结果。代码和数据集可在https://rsidea.whu.edu.cn/hyperfree.htm获取。
🔬 方法详解
问题定义:现有视觉基础模型主要针对RGB和多光谱图像设计,直接应用于高光谱遥感图像时,由于高光谱图像具有通道数量多、光谱范围广的特点,导致模型需要针对每张图像进行微调,这带来了巨大的计算和时间成本,限制了其在高光谱遥感领域的应用。
核心思路:HyperFree的核心思路是设计一种通道自适应的嵌入层,能够根据输入高光谱图像的通道数量动态调整,从而避免了针对每张图像进行微调的需求。此外,通过语义感知的掩码生成方法,使得提示设计更加有效,进一步提升了模型的性能。
技术框架:HyperFree的整体框架主要包含两个关键模块:通道自适应嵌入层和语义感知掩码生成器。通道自适应嵌入层利用学习权重字典,将不同通道的高光谱数据映射到统一的特征空间。语义感知掩码生成器则根据特征距离生成多个语义相关的掩码,用于指导模型的学习。
关键创新:HyperFree最重要的创新点在于其免调参的设计。通过通道自适应嵌入层和语义感知掩码生成器,模型能够直接应用于不同的高光谱遥感图像,无需针对每张图像进行微调,大大降低了计算成本和时间成本。这与现有需要逐图像调整的基础模型形成了本质区别。
关键设计:通道自适应嵌入层使用一个学习权重字典,覆盖了0.4~2.5μm的全光谱范围。每个权重对应一个特定的波段,模型根据输入图像的波段信息,动态选择相应的权重来构建嵌入层。语义感知掩码生成器利用特征距离作为语义相似性的度量,生成多个语义相关的掩码。具体的损失函数和网络结构细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
HyperFree在5个任务和11个数据集上进行了评估,结果表明,仅使用1个提示的HyperFree模型,性能可与经过5次微调的专用模型相媲美。这表明HyperFree在免调参的情况下,依然能够取得优异的性能,验证了其有效性和泛化能力。具体的性能提升数据在论文中未给出详细的量化结果,属于未知信息。
🎯 应用场景
HyperFree具有广泛的应用前景,可用于精准农业、环境监测、地质勘探、城市规划等领域。通过对高光谱遥感图像的快速、准确分析,可以为这些领域提供重要的决策支持,例如,识别农作物病虫害、监测水体污染、评估矿产资源等。未来,HyperFree有望成为高光谱遥感图像处理的重要工具。
📄 摘要(原文)
Advanced interpretation of hyperspectral remote sensing images benefits many precise Earth observation tasks. Recently, visual foundation models have promoted the remote sensing interpretation but concentrating on RGB and multispectral images. Due to the varied hyperspectral channels,existing foundation models would face image-by-image tuning situation, imposing great pressure on hardware and time resources. In this paper, we propose a tuning-free hyperspectral foundation model called HyperFree, by adapting the existing visual prompt engineering. To process varied channel numbers, we design a learned weight dictionary covering full-spectrum from $0.4 \sim 2.5 \, μ\text{m}$, supporting to build the embedding layer dynamically. To make the prompt design more tractable, HyperFree can generate multiple semantic-aware masks for one prompt by treating feature distance as semantic-similarity. After pre-training HyperFree on constructed large-scale high-resolution hyperspectral images, HyperFree (1 prompt) has shown comparable results with specialized models (5 shots) on 5 tasks and 11 datasets.Code and dataset are accessible at https://rsidea.whu.edu.cn/hyperfree.htm.