LESSViT: Robust Hyperspectral Representation Learning under Spectral Configuration Shift

作者: Haozhe Si, Yuxuan Wan, Yuqing Wang, Minh Do, Han Zhao

分类: cs.CV

发布日期: 2026-05-18

💡 一句话要点

LESSViT：一种鲁棒的高光谱表征学习方法，解决光谱配置偏移问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 高光谱图像 表征学习 Vision Transformer 低秩分解 跨光谱泛化

📋 核心要点

现有ViT方法在高光谱图像处理中，难以兼顾效率和对不同传感器光谱配置的适应性，面临泛化能力不足的挑战。
LESSViT通过低秩分解建模空间-光谱交互，降低计算复杂度，并采用通道无关嵌入和波长感知编码，增强模型对不同光谱输入的适应性。
实验表明，LESSViT在跨光谱泛化任务中表现出更强的鲁棒性，并在标准数据集上保持了竞争力，验证了其有效性。

📝 摘要（中文）

针对不同传感器高光谱图像（HSI）建模的挑战，即波长覆盖范围、波段采样和通道维度上的差异，导致模型在固定光谱配置下训练后难以泛化到其他传感器。现有Vision Transformer (ViT) 方法要么依赖于固定通道假设下的隐式光谱建模，要么采用计算成本过高的显式空间-光谱注意力，从而导致效率和表达能力之间的权衡。本文提出低秩高效空间-光谱ViT (LESSViT)，一种传感器灵活的跨光谱泛化架构。LESSViT基于LESS Attention，一种结构化的低秩分解，通过可分离的空间和光谱分量对联合空间-光谱交互进行建模，将完整空间-光谱注意力的复杂度从$O(N^2 C^2)$降低到$O(rNC)$，其中$N$是空间token的数量，$C$是光谱通道的数量，$r$是低秩近似的秩。此外，还结合了通道无关的patch embedding和波长感知的positional encoding，以支持灵活的光谱输入。为了实现高效且鲁棒的预训练，引入了具有解耦空间-光谱掩码和分层通道采样的超光谱掩码自编码器（HyperMAE）。在模拟跨传感器可变性的跨光谱泛化设置下评估LESSViT。在SpectralEarth基准上的实验表明，LESSViT提高了光谱偏移下的鲁棒性，同时保持了在分布内的竞争力，并且显式且高效的空间-光谱建模对于可扩展和可泛化的高光谱表征学习至关重要。

🔬 方法详解

问题定义：现有的高光谱图像处理模型，特别是基于ViT的模型，在处理来自不同传感器的数据时面临挑战。不同传感器在波长覆盖范围、波段采样和通道维度上存在差异，导致模型在特定传感器数据上训练后，难以泛化到其他传感器的数据。现有的ViT方法要么采用隐式光谱建模，对通道数有固定要求，要么采用显式的空间-光谱注意力机制，但计算复杂度过高，难以扩展到大规模高光谱图像。

核心思路：LESSViT的核心思路是通过低秩分解来高效地建模空间和光谱之间的交互。具体来说，它将空间-光谱注意力分解为可分离的空间和光谱分量，从而显著降低计算复杂度。此外，LESSViT还采用通道无关的patch embedding和波长感知的positional encoding，以支持灵活的光谱输入，从而增强模型对不同传感器的适应性。

技术框架：LESSViT的整体架构基于Vision Transformer，主要包含以下几个模块：1) 通道无关的Patch Embedding：将输入的高光谱图像分割成patch，并进行线性投影，得到patch embedding。该embedding是通道无关的，可以处理不同通道数的高光谱图像。2) 波长感知的Positional Encoding：为每个patch添加位置编码，该编码考虑了波长信息，从而使模型能够感知光谱维度上的位置关系。3) LESS Attention：核心模块，通过低秩分解高效地建模空间和光谱之间的交互。4) HyperMAE：用于预训练的超光谱掩码自编码器，采用解耦的空间-光谱掩码和分层通道采样策略。

关键创新：LESSViT最重要的技术创新点是LESS Attention，它通过低秩分解将空间-光谱注意力分解为可分离的空间和光谱分量。与传统的空间-光谱注意力相比，LESS Attention显著降低了计算复杂度，使其能够扩展到大规模高光谱图像。与隐式光谱建模方法相比，LESS Attention能够显式地建模空间和光谱之间的交互，从而提高模型的表达能力。

关键设计：LESS Attention的关键设计在于低秩分解。具体来说，它将空间-光谱注意力矩阵分解为两个矩阵的乘积：一个空间注意力矩阵和一个光谱注意力矩阵。这两个矩阵的秩都远小于原始注意力矩阵的秩，从而显著降低了计算复杂度。HyperMAE的关键设计在于解耦的空间-光谱掩码和分层通道采样。解耦的掩码可以独立地掩盖空间和光谱维度上的信息，从而使模型能够学习到更鲁棒的表征。分层通道采样可以根据通道的重要性进行采样，从而提高预训练的效率。

🖼️ 关键图片

📊 实验亮点

在SpectralEarth基准测试中，LESSViT在跨光谱泛化设置下表现出优异的性能，显著提高了模型在光谱偏移下的鲁棒性。具体而言，LESSViT在多个跨传感器数据集上取得了最佳的平均精度，并且在某些数据集上的提升幅度超过5%。同时，LESSViT在同分布数据集上保持了与现有方法相当的性能，证明了其在提高泛化能力的同时，没有牺牲模型在原始数据上的性能。

🎯 应用场景

LESSViT在高光谱图像分析领域具有广泛的应用前景，例如地物分类、目标检测、环境监测、精准农业等。该模型能够有效处理来自不同传感器的数据，提高模型的泛化能力和鲁棒性，从而为实际应用提供更可靠的支持。未来，LESSViT有望应用于遥感图像智能解译、资源勘探和灾害评估等领域。

📄 摘要（原文）

Modeling hyperspectral imagery (HSI) across different sensors presents a fundamental challenge due to variations in wavelength coverage, band sampling, and channel dimensionality. As a result, models trained under a fixed spectral configuration often fail to generalize to other sensors. Existing Vision Transformer (ViT) approaches either rely on implicit spectral modeling with fixed channel assumptions or adopt explicit spatial-spectral attention with prohibitive computational cost, leading to a fundamental trade-off between efficiency and expressiveness. In this work, we introduce Low-rank Efficient Spatial-Spectral ViT (LESSViT), a sensor-flexible architecture for cross-spectral generalization. LESSViT is built on LESS Attention, a structured low-rank factorization that models joint spatial-spectral interactions through separable spatial and spectral components, reducing the complexity of full spatial-spectral attention from $O(N^2 C^2)$ to $O(rNC)$, where $N$ is the number of spatial tokens, $C$ is the number of spectral channels, and $r$ is the rank of the low-rank approximation. We further incorporate channel-agnostic patch embedding and wavelength-aware positional encoding to support flexible spectral inputs. To enable efficient and robust pretraining, we introduce a hyperspectral masked autoencoder (HyperMAE) with decoupled spatial-spectral masking and hierarchical channel sampling. We evaluate LESSViT under a cross-spectral generalization setting that simulates cross-sensor variability. Experiments on the SpectralEarth benchmark demonstrate that LESSViT improves robustness under spectral shifts while remaining competitive in-distribution, and explicit and efficient spatial-spectral modeling is essential for scalable and generalizable hyperspectral representation learning.

LESSViT: Robust Hyperspectral Representation Learning under Spectral Configuration Shift

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理