L-MCAT: Unpaired Multimodal Transformer with Contrastive Attention for Label-Efficient Satellite Image Classification

作者: Mitul Goswami, Mrinal Goswami

分类: cs.CV

发布日期: 2025-07-27

💡 一句话要点

L-MCAT：面向弱监督卫星图像分类的对比注意力多模态Transformer

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感图像分类 多模态学习 Transformer 对比学习 自监督学习 弱监督学习 非配对数据

📋 核心要点

现有遥感图像分类方法依赖大量标注数据，且难以有效融合非配对多模态数据。
L-MCAT通过模态适配器和对比自监督注意力对齐，实现了非配对多模态数据的有效融合。
实验表明，L-MCAT在弱监督场景下性能优越，参数量和计算量远低于现有方法。

📝 摘要（中文）

本文提出了一种轻量级多模态对比注意力Transformer（L-MCAT），这是一种新颖的基于Transformer的框架，用于利用非配对多模态卫星数据进行标签高效的遥感图像分类。L-MCAT引入了两项核心创新：（1）模态-光谱适配器（MSA），将高维传感器输入压缩到统一的嵌入空间中；（2）非配对多模态注意力对齐（U-MAA），一种集成到注意力层中的对比自监督机制，用于对齐异构模态，而无需像素级对应关系或标签。L-MCAT在使用每个类别仅20个标签的情况下，在SEN12MS数据集上实现了95.4%的总体准确率，优于最先进的基线，同时使用的参数减少了47倍，FLOPs减少了23倍（相比MCTrans）。即使在50%的空间错位下，它也能保持超过92%的准确率，展示了在实际部署中的鲁棒性。该模型可以在单个消费级GPU上在5小时内进行端到端训练。

🔬 方法详解

问题定义：遥感图像分类任务中，获取大量标注数据成本高昂。同时，不同传感器获取的多模态数据通常是非配对的，即缺乏像素级别的对应关系，这给多模态融合带来了挑战。现有方法通常需要大量标注数据或复杂的配准流程，限制了其在实际应用中的可行性。

核心思路：L-MCAT的核心思路是利用Transformer强大的特征提取能力，并通过对比自监督学习的方式，在没有像素级对应关系或标签的情况下，对齐不同模态的信息。通过模态适配器将不同模态的数据映射到统一的嵌入空间，再利用对比注意力机制学习模态间的关联性。

技术框架：L-MCAT的整体架构包括以下几个主要模块：1) 模态-光谱适配器（MSA）：用于将不同模态（如光学图像和SAR图像）的高维输入压缩到统一的嵌入空间。2) Transformer编码器：利用Transformer的自注意力机制提取特征。3) 非配对多模态注意力对齐（U-MAA）：一种对比自监督机制，集成到Transformer的注意力层中，用于对齐异构模态。整个模型采用端到端的方式进行训练。

关键创新：L-MCAT的关键创新在于非配对多模态注意力对齐（U-MAA）机制。与传统的注意力机制不同，U-MAA通过对比学习的方式，鼓励模型学习不同模态之间的共享信息，从而实现模态对齐，而无需像素级别的对应关系或标签。这使得L-MCAT能够有效利用非配对的多模态数据。

关键设计：MSA采用轻量级卷积神经网络实现，旨在降低计算复杂度。U-MAA的对比损失函数设计为InfoNCE损失，用于最大化正样本对之间的相似性，同时最小化负样本对之间的相似性。Transformer编码器采用标准的多头自注意力机制。模型训练采用AdamW优化器，并设置适当的学习率和权重衰减。

📊 实验亮点

L-MCAT在SEN12MS数据集上，仅使用每个类别20个标签的情况下，实现了95.4%的总体准确率，超越了现有最先进的方法。与MCTrans相比，L-MCAT的参数量减少了47倍，FLOPs减少了23倍，同时保持了更高的精度。即使在50%的空间错位下，L-MCAT也能保持超过92%的准确率，展示了其良好的鲁棒性。

🎯 应用场景

L-MCAT可应用于各种遥感图像分类任务，例如土地覆盖分类、农作物监测、灾害评估等。其标签高效性和对非配对数据的处理能力，使其在标注数据稀缺或多源数据融合的场景下具有重要价值。该研究有助于推动遥感图像智能解译技术的发展，为资源管理、环境保护和可持续发展提供支持。

📄 摘要（原文）

We propose the Lightweight Multimodal Contrastive Attention Transformer (L-MCAT), a novel transformer-based framework for label-efficient remote sensing image classification using unpaired multimodal satellite data. L-MCAT introduces two core innovations: (1) Modality-Spectral Adapters (MSA) that compress high-dimensional sensor inputs into a unified embedding space, and (2) Unpaired Multimodal Attention Alignment (U-MAA), a contrastive self-supervised mechanism integrated into the attention layers to align heterogeneous modalities without pixel-level correspondence or labels. L-MCAT achieves 95.4% overall accuracy on the SEN12MS dataset using only 20 labels per class, outperforming state-of-the-art baselines while using 47x fewer parameters and 23x fewer FLOPs than MCTrans. It maintains over 92% accuracy even under 50% spatial misalignment, demonstrating robustness for real-world deployment. The model trains end-to-end in under 5 hours on a single consumer GPU.

L-MCAT: Unpaired Multimodal Transformer with Contrastive Attention for Label-Efficient Satellite Image Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理