Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment

作者: Abhiroop Chatterjee, Susmita Ghosh

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-09-20

备注: Accepted at the IEEE/CVF International Conference on Computer Vision (ICCV 2025), Workshop on Curated Data for Efficient Learning

💡 一句话要点

利用文本提示学习高光谱图像，实现高效多模态对齐

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 高光谱图像 多模态学习 对比学习 文本提示 视觉-语言模型

📋 核心要点

高光谱图像理解面临高维数据和跨模态对齐的挑战，现有方法难以有效利用视觉-语言模型。
提出一种基于CLIP风格对比学习的框架，利用文本提示作为锚点，对齐视觉和语言特征。
实验表明，该方法仅需少量参数更新，即可在多个数据集上取得显著的性能提升。

📝 摘要（中文）

随着数据需求的持续增长，高效学习越来越依赖于高质量数据的管理和提炼，而非模型规模的粗暴扩展。对于高光谱图像（HSI）而言，由于其高维3D体素结构（每个空间位置与数百个连续光谱通道相关联），挑战更加严峻。虽然视觉和语言模型已针对自然图像或文本任务进行了有效优化，但它们在高光谱领域中的跨模态对齐仍然是一个未被充分探索的问题。本文尝试通过利用CLIP风格的对比训练框架，优化用于高光谱场景理解的视觉-语言模型（VLM）。该框架将来自视觉主干网络的体素级嵌入映射到冻结的大型嵌入模型（LEM）的潜在空间，其中可训练的探针将视觉特征与模型的文本token表示对齐。两种模态通过对比损失对齐，该损失仅限于精心挑选的困难负样本（最接近的错误类别）和半困难负样本（随机干扰项）以及正样本对。为了进一步增强对齐，引入了编码类别语义的描述性提示，并作为HSI嵌入的结构化锚点。结果表明，该方法仅更新总参数的0.07%，但产生了最先进的性能。例如，在Indian Pines（IP）数据集上，该模型比单模态和多模态基线提高了+0.92的总体精度（OA）和+1.60的Kappa（κ），而在Pavia University（PU）数据集上，它提供了+0.69的OA和+0.90的κ增益。此外，这是在参数集比DCTN小近50倍，比SS-TMNet小90倍的情况下实现的。

🔬 方法详解

问题定义：高光谱图像（HSI）具有高维特性，如何有效地利用视觉-语言模型（VLM）进行场景理解是一个挑战。现有的方法要么是单模态的，无法利用文本信息，要么是多模态的，但参数量巨大，难以训练和部署。此外，高光谱图像的跨模态对齐问题尚未得到充分研究。

核心思路：本文的核心思路是利用CLIP风格的对比学习框架，将高光谱图像的视觉特征与文本描述对齐。通过引入精心设计的文本提示作为锚点，引导视觉特征学习，从而提高模型的性能。这种方法只需要更新少量参数，就可以实现高效的多模态对齐。

技术框架：该框架包含以下主要模块：1) 视觉主干网络：用于提取高光谱图像的体素级嵌入。2) 大型嵌入模型（LEM）：一个预训练的冻结的语言模型，用于生成文本token表示。3) 可训练探针：用于将视觉特征映射到LEM的潜在空间，并与文本特征对齐。4) 对比损失函数：用于优化视觉和文本特征之间的对齐，包括正样本对、困难负样本和半困难负样本。

关键创新：最重要的技术创新点在于利用文本提示作为结构化锚点，引导高光谱图像的视觉特征学习。与传统的对比学习方法不同，本文引入了描述性的文本提示，这些提示编码了类别语义，可以更有效地指导视觉特征的学习。此外，该方法只需要更新少量参数，就可以实现高效的多模态对齐，这使得它更易于训练和部署。

关键设计：关键的设计包括：1) 精心设计的文本提示：这些提示需要准确地描述高光谱图像的类别语义。2) 对比损失函数的选择：本文使用了对比损失函数，并选择了困难负样本和半困难负样本，以提高模型的区分能力。3) 可训练探针的设计：探针需要能够有效地将视觉特征映射到LEM的潜在空间，并与文本特征对齐。4) 参数更新策略：只更新探针的参数，而冻结LEM的参数，以减少计算量和提高训练效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Indian Pines和Pavia University数据集上取得了显著的性能提升。在Indian Pines数据集上，总体精度（OA）提高了+0.92，Kappa系数提高了+1.60。在Pavia University数据集上，总体精度（OA）提高了+0.69，Kappa系数提高了+0.90。更重要的是，该方法仅更新总参数的0.07%，参数量远小于DCTN和SS-TMNet等基线方法。

🎯 应用场景

该研究成果可应用于遥感图像分析、精准农业、环境监测等领域。通过结合高光谱图像和文本信息，可以更准确地识别地物类型、评估农作物健康状况、监测环境污染等。该方法具有参数量小、易于部署的优点，有望在资源受限的场景中得到广泛应用，并为未来的高光谱图像智能分析提供新的思路。

📄 摘要（原文）

As data requirements continue to grow, efficient learning increasingly depends on the curation and distillation of high-value data rather than brute-force scaling of model sizes. In the case of a hyperspectral image (HSI), the challenge is amplified by the high-dimensional 3D voxel structure, where each spatial location is associated with hundreds of contiguous spectral channels. While vision and language models have been optimized effectively for natural image or text tasks, their cross-modal alignment in the hyperspectral domain remains an open and underexplored problem. In this article, we make an attempt to optimize a Vision-Language Model (VLM) for hyperspectral scene understanding by exploiting a CLIP-style contrastive training framework. Our framework maps voxel-level embeddings from a vision backbone onto the latent space of a frozen large embedding model (LEM), where a trainable probe aligns vision features with the model's textual token representations. The two modalities are aligned via a contrastive loss restricted to a curated set of hard (closest wrong classes) and semi-hard (random distractors) negatives, along with positive pairs. To further enhance alignment, descriptive prompts that encode class semantics are introduced and act as structured anchors for the HSI embeddings. It is seen that the proposed method updates only 0.07 percent of the total parameters, yet yields state-of-the-art performance. For example, on Indian Pines (IP) the model produces better results over unimodal and multimodal baselines by +0.92 Overall Accuracy (OA) and +1.60 Kappa ($κ$), while on Pavia University (PU) data it provides gains of +0.69 OA and +0.90 $κ$. Moreover, this is achieved with the set of parameters, nearly 50$\times$ smaller than DCTN and 90$\times$ smaller than SS-TMNet.

Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理