L-MCAT: Unpaired Multimodal Transformer with Contrastive Attention for Label-Efficient Satellite Image Classification
作者: Mitul Goswami, Mrinal Goswami
分类: cs.CV
发布日期: 2025-07-27
💡 一句话要点
L-MCAT:面向弱监督卫星图像分类的对比注意力多模态Transformer
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感图像分类 多模态学习 Transformer 对比学习 自监督学习 弱监督学习 非配对数据
📋 核心要点
- 现有遥感图像分类方法依赖大量标注数据,且难以有效融合非配对多模态数据。
- L-MCAT通过模态适配器和对比自监督注意力对齐,实现了非配对多模态数据的有效融合。
- 实验表明,L-MCAT在弱监督场景下性能优越,参数量和计算量远低于现有方法。
📝 摘要(中文)
本文提出了一种轻量级多模态对比注意力Transformer(L-MCAT),这是一种新颖的基于Transformer的框架,用于利用非配对多模态卫星数据进行标签高效的遥感图像分类。L-MCAT引入了两项核心创新:(1)模态-光谱适配器(MSA),将高维传感器输入压缩到统一的嵌入空间中;(2)非配对多模态注意力对齐(U-MAA),一种集成到注意力层中的对比自监督机制,用于对齐异构模态,而无需像素级对应关系或标签。L-MCAT在使用每个类别仅20个标签的情况下,在SEN12MS数据集上实现了95.4%的总体准确率,优于最先进的基线,同时使用的参数减少了47倍,FLOPs减少了23倍(相比MCTrans)。即使在50%的空间错位下,它也能保持超过92%的准确率,展示了在实际部署中的鲁棒性。该模型可以在单个消费级GPU上在5小时内进行端到端训练。
🔬 方法详解
问题定义:遥感图像分类任务中,获取大量标注数据成本高昂。同时,不同传感器获取的多模态数据通常是非配对的,即缺乏像素级别的对应关系,这给多模态融合带来了挑战。现有方法通常需要大量标注数据或复杂的配准流程,限制了其在实际应用中的可行性。
核心思路:L-MCAT的核心思路是利用Transformer强大的特征提取能力,并通过对比自监督学习的方式,在没有像素级对应关系或标签的情况下,对齐不同模态的信息。通过模态适配器将不同模态的数据映射到统一的嵌入空间,再利用对比注意力机制学习模态间的关联性。
技术框架:L-MCAT的整体架构包括以下几个主要模块:1) 模态-光谱适配器(MSA):用于将不同模态(如光学图像和SAR图像)的高维输入压缩到统一的嵌入空间。2) Transformer编码器:利用Transformer的自注意力机制提取特征。3) 非配对多模态注意力对齐(U-MAA):一种对比自监督机制,集成到Transformer的注意力层中,用于对齐异构模态。整个模型采用端到端的方式进行训练。
关键创新:L-MCAT的关键创新在于非配对多模态注意力对齐(U-MAA)机制。与传统的注意力机制不同,U-MAA通过对比学习的方式,鼓励模型学习不同模态之间的共享信息,从而实现模态对齐,而无需像素级别的对应关系或标签。这使得L-MCAT能够有效利用非配对的多模态数据。
关键设计:MSA采用轻量级卷积神经网络实现,旨在降低计算复杂度。U-MAA的对比损失函数设计为InfoNCE损失,用于最大化正样本对之间的相似性,同时最小化负样本对之间的相似性。Transformer编码器采用标准的多头自注意力机制。模型训练采用AdamW优化器,并设置适当的学习率和权重衰减。
📊 实验亮点
L-MCAT在SEN12MS数据集上,仅使用每个类别20个标签的情况下,实现了95.4%的总体准确率,超越了现有最先进的方法。与MCTrans相比,L-MCAT的参数量减少了47倍,FLOPs减少了23倍,同时保持了更高的精度。即使在50%的空间错位下,L-MCAT也能保持超过92%的准确率,展示了其良好的鲁棒性。
🎯 应用场景
L-MCAT可应用于各种遥感图像分类任务,例如土地覆盖分类、农作物监测、灾害评估等。其标签高效性和对非配对数据的处理能力,使其在标注数据稀缺或多源数据融合的场景下具有重要价值。该研究有助于推动遥感图像智能解译技术的发展,为资源管理、环境保护和可持续发展提供支持。
📄 摘要(原文)
We propose the Lightweight Multimodal Contrastive Attention Transformer (L-MCAT), a novel transformer-based framework for label-efficient remote sensing image classification using unpaired multimodal satellite data. L-MCAT introduces two core innovations: (1) Modality-Spectral Adapters (MSA) that compress high-dimensional sensor inputs into a unified embedding space, and (2) Unpaired Multimodal Attention Alignment (U-MAA), a contrastive self-supervised mechanism integrated into the attention layers to align heterogeneous modalities without pixel-level correspondence or labels. L-MCAT achieves 95.4% overall accuracy on the SEN12MS dataset using only 20 labels per class, outperforming state-of-the-art baselines while using 47x fewer parameters and 23x fewer FLOPs than MCTrans. It maintains over 92% accuracy even under 50% spatial misalignment, demonstrating robustness for real-world deployment. The model trains end-to-end in under 5 hours on a single consumer GPU.