A Data-Centric Vision Transformer Baseline for SAR Sea Ice Classification

📄 arXiv: 2604.03094 📥 PDF

作者: David Mike-Ewewie, Panhapiseth Lim, Priyanka Kumar

分类: cs.CV, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出基于数据增强的SAR海冰分类ViT基线,提升稀有冰类识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 海冰分类 合成孔径雷达 视觉Transformer 类别不平衡 Focal Loss

📋 核心要点

  1. 现有海冰分类方法难以有效区分形态相似的冰类,且存在严重的类别不平衡问题。
  2. 论文提出一种数据驱动的ViT基线方法,侧重于数据预处理和损失函数选择,以提升分类性能。
  3. 实验结果表明,ViT-Large结合focal loss在稀有冰类识别上取得了显著的精度提升。

📝 摘要(中文)

本文针对北极地区海冰分类问题,提出了一种基于视觉Transformer(ViT)的数据驱动方法,旨在建立一个可靠的SAR(合成孔径雷达)基线,为未来多模态融合研究奠定基础。该方法利用AI4Arctic/ASIP海冰数据集(v2),包含461个Sentinel-1场景和专家冰图。通过结合全分辨率Sentinel-1超宽幅输入、泄漏感知分层图像分割、SIGRID-3冰龄标签以及训练集标准化,评估了ViT基线的性能。实验对比了使用交叉熵和加权交叉熵训练的ViT-Base模型,以及使用focal loss训练的ViT-Large模型。结果表明,ViT-Large结合focal loss在少数类多年冰上的精度达到83.9%,整体准确率达到69.6%,加权F1值为68.8%。该研究表明,对于稀有冰类,focal loss训练比加权交叉熵提供更有用的精度-召回率权衡,并为未来与光学、热学或气象数据的多模态融合建立了一个更清晰的基线。

🔬 方法详解

问题定义:论文旨在解决SAR图像海冰分类中,由于形态相似和类别不平衡导致的分类精度问题。现有方法在处理稀有冰类时表现不佳,难以满足气候监测和航运安全的需求。

核心思路:论文的核心思路是利用数据增强和合适的损失函数来改善ViT模型在类别不平衡数据集上的表现。通过泄漏感知分层图像分割,保证数据划分的合理性,并采用focal loss来关注难分类样本,从而提升稀有冰类的识别精度。

技术框架:整体框架包括数据预处理、模型训练和性能评估三个阶段。数据预处理阶段包括Sentinel-1图像的读取、裁剪、标准化以及SIGRID-3冰龄标签的匹配。模型训练阶段使用ViT-Base和ViT-Large模型,并分别采用交叉熵、加权交叉熵和focal loss进行训练。性能评估阶段使用准确率、加权F1值和精度等指标来评估模型的分类性能。

关键创新:论文的关键创新在于针对SAR海冰分类任务,探索了数据预处理方法和损失函数选择对ViT模型性能的影响。特别地,论文验证了focal loss在处理类别不平衡问题上的有效性,并为未来的多模态融合研究建立了一个可靠的SAR基线。

关键设计:论文使用了Sentinel-1 Extra Wide幅宽的SAR图像,并将其分割成patch输入ViT模型。在训练过程中,使用了AdamW优化器,并设置了合适的学习率和权重衰减。Focal loss的参数gamma设置为2,用于调节难分类样本的权重。ViT-Base和ViT-Large模型的具体参数设置遵循原始论文。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ViT-Large模型结合focal loss在多年冰的分类精度上达到了83.9%,整体分类准确率达到69.6%,加权F1值为68.8%。相比于使用交叉熵和加权交叉熵的ViT-Base模型,该方法在稀有冰类识别上取得了显著的提升,验证了focal loss在处理类别不平衡问题上的有效性。

🎯 应用场景

该研究成果可应用于北极地区的海洋环境监测、气候变化研究以及航运安全保障。准确的海冰分类有助于预测海冰变化趋势,为航运提供安全保障,并为气候模型提供更准确的数据支持。未来可扩展到其他极地环境监测任务。

📄 摘要(原文)

Accurate and automated sea ice classification is important for climate monitoring and maritime safety in the Arctic. While Synthetic Aperture Radar (SAR) is the operational standard because of its all-weather capability, it remains challenging to distinguish morphologically similar ice classes under severe class imbalance. Rather than claiming a fully validated multimodal system, this paper establishes a trustworthy SAR only baseline that future fusion work can build upon. Using the AI4Arctic/ASIP Sea Ice Dataset (v2), which contains 461 Sentinel-1 scenes matched with expert ice charts, we combine full-resolution Sentinel-1 Extra Wide inputs, leakage-aware stratified patch splitting, SIGRID-3 stage-of-development labels, and training-set normalization to evaluate Vision Transformer baselines. We compare ViT-Base models trained with cross entropy and weighted cross-entropy against a ViT-Large model trained with focal loss. Among the tested configurations, ViT-Large with focal loss achieves 69.6% held-out accuracy, 68.8% weighted F1, and 83.9% precision on the minority Multi-Year Ice class. These results show that focal-loss training offers a more useful precision-recall trade-off than weighted cross-entropy for rare ice classes and establishes a cleaner baseline for future multimodal fusion with optical, thermal, or meteorological data.