A Data-Centric Vision Transformer Baseline for SAR Sea Ice Classification

作者: David Mike-Ewewie, Panhapiseth Lim, Priyanka Kumar

分类: cs.CV, cs.AI

发布日期: 2026-04-06

💡 一句话要点

提出基于数据增强的SAR海冰分类ViT基线，提升稀有冰类识别精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 海冰分类 合成孔径雷达 视觉Transformer 类别不平衡 Focal Loss

📋 核心要点

现有海冰分类方法难以有效区分形态相似的冰类，且存在严重的类别不平衡问题。
论文提出一种数据驱动的ViT基线方法，侧重于数据预处理和损失函数选择，以提升分类性能。
实验结果表明，ViT-Large结合focal loss在稀有冰类识别上取得了显著的精度提升。

📝 摘要（中文）

本文针对北极地区海冰分类问题，提出了一种基于视觉Transformer（ViT）的数据驱动方法，旨在建立一个可靠的SAR（合成孔径雷达）基线，为未来多模态融合研究奠定基础。该方法利用AI4Arctic/ASIP海冰数据集（v2），包含461个Sentinel-1场景和专家冰图。通过结合全分辨率Sentinel-1超宽幅输入、泄漏感知分层图像分割、SIGRID-3冰龄标签以及训练集标准化，评估了ViT基线的性能。实验对比了使用交叉熵和加权交叉熵训练的ViT-Base模型，以及使用focal loss训练的ViT-Large模型。结果表明，ViT-Large结合focal loss在少数类多年冰上的精度达到83.9%，整体准确率达到69.6%，加权F1值为68.8%。该研究表明，对于稀有冰类，focal loss训练比加权交叉熵提供更有用的精度-召回率权衡，并为未来与光学、热学或气象数据的多模态融合建立了一个更清晰的基线。

🔬 方法详解

问题定义：论文旨在解决SAR图像海冰分类中，由于形态相似和类别不平衡导致的分类精度问题。现有方法在处理稀有冰类时表现不佳，难以满足气候监测和航运安全的需求。

核心思路：论文的核心思路是利用数据增强和合适的损失函数来改善ViT模型在类别不平衡数据集上的表现。通过泄漏感知分层图像分割，保证数据划分的合理性，并采用focal loss来关注难分类样本，从而提升稀有冰类的识别精度。

技术框架：整体框架包括数据预处理、模型训练和性能评估三个阶段。数据预处理阶段包括Sentinel-1图像的读取、裁剪、标准化以及SIGRID-3冰龄标签的匹配。模型训练阶段使用ViT-Base和ViT-Large模型，并分别采用交叉熵、加权交叉熵和focal loss进行训练。性能评估阶段使用准确率、加权F1值和精度等指标来评估模型的分类性能。

关键创新：论文的关键创新在于针对SAR海冰分类任务，探索了数据预处理方法和损失函数选择对ViT模型性能的影响。特别地，论文验证了focal loss在处理类别不平衡问题上的有效性，并为未来的多模态融合研究建立了一个可靠的SAR基线。

关键设计：论文使用了Sentinel-1 Extra Wide幅宽的SAR图像，并将其分割成patch输入ViT模型。在训练过程中，使用了AdamW优化器，并设置了合适的学习率和权重衰减。Focal loss的参数gamma设置为2，用于调节难分类样本的权重。ViT-Base和ViT-Large模型的具体参数设置遵循原始论文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ViT-Large模型结合focal loss在多年冰的分类精度上达到了83.9%，整体分类准确率达到69.6%，加权F1值为68.8%。相比于使用交叉熵和加权交叉熵的ViT-Base模型，该方法在稀有冰类识别上取得了显著的提升，验证了focal loss在处理类别不平衡问题上的有效性。

🎯 应用场景

该研究成果可应用于北极地区的海洋环境监测、气候变化研究以及航运安全保障。准确的海冰分类有助于预测海冰变化趋势，为航运提供安全保障，并为气候模型提供更准确的数据支持。未来可扩展到其他极地环境监测任务。

📄 摘要（原文）

Accurate and automated sea ice classification is important for climate monitoring and maritime safety in the Arctic. While Synthetic Aperture Radar (SAR) is the operational standard because of its all-weather capability, it remains challenging to distinguish morphologically similar ice classes under severe class imbalance. Rather than claiming a fully validated multimodal system, this paper establishes a trustworthy SAR only baseline that future fusion work can build upon. Using the AI4Arctic/ASIP Sea Ice Dataset (v2), which contains 461 Sentinel-1 scenes matched with expert ice charts, we combine full-resolution Sentinel-1 Extra Wide inputs, leakage-aware stratified patch splitting, SIGRID-3 stage-of-development labels, and training-set normalization to evaluate Vision Transformer baselines. We compare ViT-Base models trained with cross entropy and weighted cross-entropy against a ViT-Large model trained with focal loss. Among the tested configurations, ViT-Large with focal loss achieves 69.6% held-out accuracy, 68.8% weighted F1, and 83.9% precision on the minority Multi-Year Ice class. These results show that focal-loss training offers a more useful precision-recall trade-off than weighted cross-entropy for rare ice classes and establishes a cleaner baseline for future multimodal fusion with optical, thermal, or meteorological data.

A Data-Centric Vision Transformer Baseline for SAR Sea Ice Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理