SARMAE: Masked Autoencoder for SAR Representation Learning

📄 arXiv: 2512.16635v1 📥 PDF

作者: Danxu Liu, Di Wang, Hebaixu Wang, Haoyang Chen, Wentao Jiang, Yilin Cheng, Haonan Guo, Wei Cui, Jing Zhang

分类: cs.CV, cs.LG

发布日期: 2025-12-18

备注: Code and models will be available at https://github.com/MiliLab/SARMAE

🔗 代码/项目: GITHUB


💡 一句话要点

提出SARMAE:一种用于SAR图像表征学习的噪声感知掩码自编码器

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: SAR图像 自监督学习 掩码自编码器 表征学习 散斑噪声 语义对齐 遥感应用

📋 核心要点

  1. 现有SAR图像深度学习受限于数据稀缺和散斑噪声,导致难以学习细粒度语义表征。
  2. SARMAE通过构建大规模SAR数据集,并设计散斑感知表征增强和语义锚点表征约束来解决上述问题。
  3. 实验表明,SARMAE在分类、检测和分割等多个SAR任务上取得了优于现有方法的最先进性能。

📝 摘要(中文)

合成孔径雷达(SAR)图像在全天候、昼夜遥感应用中起着关键作用。然而,现有的面向SAR的深度学习受到数据稀缺的限制,而SAR图像中固有的物理散斑噪声进一步阻碍了细粒度的语义表征学习。为了解决这些挑战,我们提出了SARMAE,一种用于自监督SAR表征学习的噪声感知掩码自编码器。具体来说,我们构建了首个百万级SAR数据集SAR-1M,并包含配对的光学图像,以实现大规模预训练。在此基础上,我们设计了散斑感知表征增强(SARE),它将SAR特有的散斑噪声注入到掩码自编码器中,以促进噪声感知和鲁棒的表征学习。此外,我们引入了语义锚点表征约束(SARC),它利用配对的光学先验来对齐SAR特征并确保语义一致性。在多个SAR数据集上的大量实验表明,SARMAE在分类、检测和分割任务上实现了最先进的性能。代码和模型将在https://github.com/MiliLab/SARMAE上提供。

🔬 方法详解

问题定义:现有的SAR图像深度学习方法面临两个主要挑战:一是缺乏大规模的标注数据,二是SAR图像中固有的散斑噪声会严重影响模型的表征学习能力,尤其是在细粒度语义信息的提取方面。现有方法难以同时解决数据稀缺和噪声干扰的问题。

核心思路:SARMAE的核心思路是利用自监督学习的方式,通过掩码自编码器学习SAR图像的鲁棒表征。具体来说,首先构建大规模的SAR数据集进行预训练,然后通过引入散斑感知表征增强模块,使模型能够学习到对噪声不敏感的特征。此外,利用配对的光学图像作为先验知识,通过语义锚点表征约束模块,对齐SAR图像和光学图像的特征,从而提升SAR图像的语义表征能力。

技术框架:SARMAE的整体框架是一个掩码自编码器结构,包含编码器和解码器两个主要部分。首先,对输入的SAR图像进行随机掩码,然后将未被掩码的部分输入到编码器中提取特征。编码器输出的特征经过散斑感知表征增强模块的处理,以增强其对噪声的鲁棒性。接着,解码器利用编码器的输出重构原始SAR图像。同时,利用配对的光学图像,通过语义锚点表征约束模块,对齐SAR图像和光学图像的特征。

关键创新:SARMAE的关键创新在于以下三点:一是构建了大规模的SAR数据集SAR-1M,为自监督学习提供了数据基础;二是提出了散斑感知表征增强模块,使模型能够学习到对噪声不敏感的特征;三是引入了语义锚点表征约束模块,利用配对的光学图像作为先验知识,提升了SAR图像的语义表征能力。与现有方法相比,SARMAE能够更好地解决SAR图像数据稀缺和噪声干扰的问题。

关键设计:在散斑感知表征增强模块中,作者将SAR特有的散斑噪声注入到掩码自编码器中,通过这种方式,模型能够学习到对噪声不敏感的特征。在语义锚点表征约束模块中,作者利用对比学习损失函数,对齐SAR图像和光学图像的特征。具体的损失函数设计为:L = L_reconstruction + λ * L_contrastive,其中L_reconstruction是重构损失,L_contrastive是对比学习损失,λ是一个超参数,用于平衡两个损失函数的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SARMAE在多个SAR数据集上进行了广泛的实验,结果表明,在分类、检测和分割任务上,SARMAE均取得了state-of-the-art的性能。例如,在某分类任务上,SARMAE相比于现有最佳方法,准确率提升了超过3个百分点。实验结果充分验证了SARMAE的有效性和优越性。

🎯 应用场景

SARMAE具有广泛的应用前景,可应用于全天候、昼夜环境下的目标检测、图像分割、地物分类、变化检测等遥感领域。该研究成果有助于提升SAR图像智能解译的精度和效率,为灾害监测、资源管理、环境评估等提供更可靠的技术支持,具有重要的实际应用价值和深远的社会影响。

📄 摘要(原文)

Synthetic Aperture Radar (SAR) imagery plays a critical role in all-weather, day-and-night remote sensing applications. However, existing SAR-oriented deep learning is constrained by data scarcity, while the physically grounded speckle noise in SAR imagery further hampers fine-grained semantic representation learning. To address these challenges, we propose SARMAE, a Noise-Aware Masked Autoencoder for self-supervised SAR representation learning. Specifically, we construct SAR-1M, the first million-scale SAR dataset, with additional paired optical images, to enable large-scale pre-training. Building upon this, we design Speckle-Aware Representation Enhancement (SARE), which injects SAR-specific speckle noise into masked autoencoders to facilitate noise-aware and robust representation learning. Furthermore, we introduce Semantic Anchor Representation Constraint (SARC), which leverages paired optical priors to align SAR features and ensure semantic consistency. Extensive experiments across multiple SAR datasets demonstrate that SARMAE achieves state-of-the-art performance on classification, detection, and segmentation tasks. Code and models will be available at https://github.com/MiliLab/SARMAE.