LESSViT: Robust Hyperspectral Representation Learning under Spectral Configuration Shift

📄 arXiv: 2605.18541v1 📥 PDF

作者: Haozhe Si, Yuxuan Wan, Yuqing Wang, Minh Do, Han Zhao

分类: cs.CV

发布日期: 2026-05-18


💡 一句话要点

LESSViT:一种鲁棒的高光谱表征学习方法,解决光谱配置偏移问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 高光谱图像 表征学习 Vision Transformer 低秩分解 跨光谱泛化

📋 核心要点

  1. 现有ViT方法在高光谱图像处理中,难以兼顾效率和对不同传感器光谱配置的适应性,面临泛化能力不足的挑战。
  2. LESSViT通过低秩分解建模空间-光谱交互,降低计算复杂度,并采用通道无关嵌入和波长感知编码,增强模型对不同光谱输入的适应性。
  3. 实验表明,LESSViT在跨光谱泛化任务中表现出更强的鲁棒性,并在标准数据集上保持了竞争力,验证了其有效性。

📝 摘要(中文)

针对不同传感器高光谱图像(HSI)建模的挑战,即波长覆盖范围、波段采样和通道维度上的差异,导致模型在固定光谱配置下训练后难以泛化到其他传感器。现有Vision Transformer (ViT) 方法要么依赖于固定通道假设下的隐式光谱建模,要么采用计算成本过高的显式空间-光谱注意力,从而导致效率和表达能力之间的权衡。本文提出低秩高效空间-光谱ViT (LESSViT),一种传感器灵活的跨光谱泛化架构。LESSViT基于LESS Attention,一种结构化的低秩分解,通过可分离的空间和光谱分量对联合空间-光谱交互进行建模,将完整空间-光谱注意力的复杂度从$O(N^2 C^2)$降低到$O(rNC)$,其中$N$是空间token的数量,$C$是光谱通道的数量,$r$是低秩近似的秩。此外,还结合了通道无关的patch embedding和波长感知的positional encoding,以支持灵活的光谱输入。为了实现高效且鲁棒的预训练,引入了具有解耦空间-光谱掩码和分层通道采样的超光谱掩码自编码器(HyperMAE)。在模拟跨传感器可变性的跨光谱泛化设置下评估LESSViT。在SpectralEarth基准上的实验表明,LESSViT提高了光谱偏移下的鲁棒性,同时保持了在分布内的竞争力,并且显式且高效的空间-光谱建模对于可扩展和可泛化的高光谱表征学习至关重要。

🔬 方法详解

问题定义:现有的高光谱图像处理模型,特别是基于ViT的模型,在处理来自不同传感器的数据时面临挑战。不同传感器在波长覆盖范围、波段采样和通道维度上存在差异,导致模型在特定传感器数据上训练后,难以泛化到其他传感器的数据。现有的ViT方法要么采用隐式光谱建模,对通道数有固定要求,要么采用显式的空间-光谱注意力机制,但计算复杂度过高,难以扩展到大规模高光谱图像。

核心思路:LESSViT的核心思路是通过低秩分解来高效地建模空间和光谱之间的交互。具体来说,它将空间-光谱注意力分解为可分离的空间和光谱分量,从而显著降低计算复杂度。此外,LESSViT还采用通道无关的patch embedding和波长感知的positional encoding,以支持灵活的光谱输入,从而增强模型对不同传感器的适应性。

技术框架:LESSViT的整体架构基于Vision Transformer,主要包含以下几个模块:1) 通道无关的Patch Embedding:将输入的高光谱图像分割成patch,并进行线性投影,得到patch embedding。该embedding是通道无关的,可以处理不同通道数的高光谱图像。2) 波长感知的Positional Encoding:为每个patch添加位置编码,该编码考虑了波长信息,从而使模型能够感知光谱维度上的位置关系。3) LESS Attention:核心模块,通过低秩分解高效地建模空间和光谱之间的交互。4) HyperMAE:用于预训练的超光谱掩码自编码器,采用解耦的空间-光谱掩码和分层通道采样策略。

关键创新:LESSViT最重要的技术创新点是LESS Attention,它通过低秩分解将空间-光谱注意力分解为可分离的空间和光谱分量。与传统的空间-光谱注意力相比,LESS Attention显著降低了计算复杂度,使其能够扩展到大规模高光谱图像。与隐式光谱建模方法相比,LESS Attention能够显式地建模空间和光谱之间的交互,从而提高模型的表达能力。

关键设计:LESS Attention的关键设计在于低秩分解。具体来说,它将空间-光谱注意力矩阵分解为两个矩阵的乘积:一个空间注意力矩阵和一个光谱注意力矩阵。这两个矩阵的秩都远小于原始注意力矩阵的秩,从而显著降低了计算复杂度。HyperMAE的关键设计在于解耦的空间-光谱掩码和分层通道采样。解耦的掩码可以独立地掩盖空间和光谱维度上的信息,从而使模型能够学习到更鲁棒的表征。分层通道采样可以根据通道的重要性进行采样,从而提高预训练的效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SpectralEarth基准测试中,LESSViT在跨光谱泛化设置下表现出优异的性能,显著提高了模型在光谱偏移下的鲁棒性。具体而言,LESSViT在多个跨传感器数据集上取得了最佳的平均精度,并且在某些数据集上的提升幅度超过5%。同时,LESSViT在同分布数据集上保持了与现有方法相当的性能,证明了其在提高泛化能力的同时,没有牺牲模型在原始数据上的性能。

🎯 应用场景

LESSViT在高光谱图像分析领域具有广泛的应用前景,例如地物分类、目标检测、环境监测、精准农业等。该模型能够有效处理来自不同传感器的数据,提高模型的泛化能力和鲁棒性,从而为实际应用提供更可靠的支持。未来,LESSViT有望应用于遥感图像智能解译、资源勘探和灾害评估等领域。

📄 摘要(原文)

Modeling hyperspectral imagery (HSI) across different sensors presents a fundamental challenge due to variations in wavelength coverage, band sampling, and channel dimensionality. As a result, models trained under a fixed spectral configuration often fail to generalize to other sensors. Existing Vision Transformer (ViT) approaches either rely on implicit spectral modeling with fixed channel assumptions or adopt explicit spatial-spectral attention with prohibitive computational cost, leading to a fundamental trade-off between efficiency and expressiveness. In this work, we introduce Low-rank Efficient Spatial-Spectral ViT (LESSViT), a sensor-flexible architecture for cross-spectral generalization. LESSViT is built on LESS Attention, a structured low-rank factorization that models joint spatial-spectral interactions through separable spatial and spectral components, reducing the complexity of full spatial-spectral attention from $O(N^2 C^2)$ to $O(rNC)$, where $N$ is the number of spatial tokens, $C$ is the number of spectral channels, and $r$ is the rank of the low-rank approximation. We further incorporate channel-agnostic patch embedding and wavelength-aware positional encoding to support flexible spectral inputs. To enable efficient and robust pretraining, we introduce a hyperspectral masked autoencoder (HyperMAE) with decoupled spatial-spectral masking and hierarchical channel sampling. We evaluate LESSViT under a cross-spectral generalization setting that simulates cross-sensor variability. Experiments on the SpectralEarth benchmark demonstrate that LESSViT improves robustness under spectral shifts while remaining competitive in-distribution, and explicit and efficient spatial-spectral modeling is essential for scalable and generalizable hyperspectral representation learning.