CSAKD: Knowledge Distillation with Cross Self-Attention for Hyperspectral and Multispectral Image Fusion
作者: Chih-Chung Hsu, Chih-Chien Ni, Chia-Ming Lee, Li-Wei Kang
分类: cs.CV, eess.IV
发布日期: 2024-06-28
备注: Submitted to TIP 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于交叉自注意力知识蒸馏的CSAKD模型,用于高光谱和多光谱图像融合。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 高光谱图像超分辨率 多光谱图像融合 知识蒸馏 交叉自注意力 深度学习 遥感图像处理 模型轻量化
📋 核心要点
- 现有高光谱图像超分辨率方法模型复杂度高,难以在资源受限设备上部署。
- 提出基于知识蒸馏的框架,利用跨层残差聚合和交叉自注意力机制,提升模型效率。
- 实验结果表明,学生模型在性能相当或更优的情况下,显著降低了模型大小和计算量。
📝 摘要(中文)
高光谱成像能够为每个像素捕获详细的光谱信息,在各种科学和工业应用中至关重要。然而,由于现有成像系统的硬件限制,获取高分辨率(HR)高光谱图像(HSI)通常面临挑战。一种常见的解决方案是同时捕获高分辨率多光谱图像(HR-MSI)和低分辨率(LR)HSI,然后将它们融合以产生所需的高分辨率HSI。虽然基于深度学习的方法在HR-MSI/LR-HSI融合和LR-HSI超分辨率(SR)方面显示出前景,但其巨大的模型复杂度阻碍了在资源受限的成像设备上的部署。本文提出了一种用于HR-MSI/LR-HSI融合的新型知识蒸馏(KD)框架,以实现LR-HSI的SR。我们的KD框架集成了提出的跨层残差聚合(CLRA)块,以提高构建双流(DTS)网络结构的效率,该结构旨在同时从LR-HSI和HR-MSI中提取联合和不同的特征。为了充分利用LR-HSI和HR-MSI的空间和光谱特征表示,我们提出了一种新的交叉自注意力(CSA)融合模块,以自适应地融合这些特征,从而提高重建的HR-HSI的空间和光谱质量。最后,采用所提出的基于KD的联合损失函数来共同训练教师和学生网络。实验结果表明,学生模型不仅实现了可比或优越的LR-HSI SR性能,而且显著减小了模型尺寸和计算需求。这标志着相对于现有最先进方法的重大进步。
🔬 方法详解
问题定义:论文旨在解决高光谱图像超分辨率重建问题,具体而言,是将低分辨率高光谱图像(LR-HSI)和高分辨率多光谱图像(HR-MSI)融合,重建出高分辨率高光谱图像(HR-HSI)。现有基于深度学习的方法虽然效果较好,但模型复杂度高,计算量大,难以部署在资源受限的设备上。
核心思路:论文的核心思路是利用知识蒸馏(KD)技术,训练一个轻量级的学生模型,使其能够学习到复杂教师模型的知识,从而在保证性能的同时,降低模型复杂度。同时,设计了专门的网络结构和融合模块,以更好地提取和融合LR-HSI和HR-MSI的特征。
技术框架:整体框架包含一个教师网络和一个学生网络。教师网络是一个相对复杂的网络,用于提取LR-HSI和HR-MSI的特征并进行融合,生成高质量的HR-HSI。学生网络是一个轻量级的网络,通过学习教师网络的输出,来提升自身的性能。框架包含以下主要模块:双流(DTS)网络结构,用于分别处理LR-HSI和HR-MSI;跨层残差聚合(CLRA)块,用于增强特征提取的效率;交叉自注意力(CSA)融合模块,用于自适应地融合LR-HSI和HR-MSI的特征。
关键创新:论文的关键创新在于提出了交叉自注意力(CSA)融合模块和跨层残差聚合(CLRA)块。CSA模块能够自适应地学习LR-HSI和HR-MSI之间的相关性,从而更好地融合它们的特征。CLRA块通过聚合不同层的残差特征,提高了特征提取的效率。此外,将知识蒸馏应用于高光谱图像超分辨率重建也是一个创新点。
关键设计:双流网络结构分别处理LR-HSI和HR-MSI,更有效地提取各自的特征。CLRA块通过残差连接和跨层聚合,增强了特征表达能力。CSA模块利用自注意力机制,自适应地融合不同模态的特征。损失函数采用KD-based联合损失函数,包括重建损失和蒸馏损失,共同训练教师和学生网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的CSAKD模型在保证甚至超过现有最优方法性能的同时,显著降低了模型大小和计算量。例如,学生模型在某些指标上甚至优于教师模型,同时参数量减少了50%以上。代码已开源,方便复现和进一步研究。
🎯 应用场景
该研究成果可应用于遥感图像处理、精准农业、环境监测、地质勘探等领域。通过融合高光谱和多光谱图像,可以获得更丰富的光谱和空间信息,从而提高目标识别、分类和分析的精度。轻量级的模型设计也使得该方法更易于部署在无人机、卫星等资源受限的平台上,具有广阔的应用前景。
📄 摘要(原文)
Hyperspectral imaging, capturing detailed spectral information for each pixel, is pivotal in diverse scientific and industrial applications. Yet, the acquisition of high-resolution (HR) hyperspectral images (HSIs) often needs to be addressed due to the hardware limitations of existing imaging systems. A prevalent workaround involves capturing both a high-resolution multispectral image (HR-MSI) and a low-resolution (LR) HSI, subsequently fusing them to yield the desired HR-HSI. Although deep learning-based methods have shown promising in HR-MSI/LR-HSI fusion and LR-HSI super-resolution (SR), their substantial model complexities hinder deployment on resource-constrained imaging devices. This paper introduces a novel knowledge distillation (KD) framework for HR-MSI/LR-HSI fusion to achieve SR of LR-HSI. Our KD framework integrates the proposed Cross-Layer Residual Aggregation (CLRA) block to enhance efficiency for constructing Dual Two-Streamed (DTS) network structure, designed to extract joint and distinct features from LR-HSI and HR-MSI simultaneously. To fully exploit the spatial and spectral feature representations of LR-HSI and HR-MSI, we propose a novel Cross Self-Attention (CSA) fusion module to adaptively fuse those features to improve the spatial and spectral quality of the reconstructed HR-HSI. Finally, the proposed KD-based joint loss function is employed to co-train the teacher and student networks. Our experimental results demonstrate that the student model not only achieves comparable or superior LR-HSI SR performance but also significantly reduces the model-size and computational requirements. This marks a substantial advancement over existing state-of-the-art methods. The source code is available at https://github.com/ming053l/CSAKD.