Clustering Guided Domain-Specific Pretrained Foundation Model Very High-Resolution Arctic Remote Sensing
作者: Amal S. Perera, Chandi Witharana, Elias Manos, Michael Pimenta, Anna K. Liljedahl
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
提出基于聚类引导的域特定预训练模型以提升北极遥感分析
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 北极遥感 自监督学习 图像聚类 ViT编码器 超高分辨率图像 特征迁移 环境监测
📋 核心要点
- 现有的遥感模型在处理北极地区的超高分辨率图像时,往往面临数据多样性不足和特征迁移能力差的问题。
- 本研究提出了一种结合聚类引导的图像策划与MAE自监督预训练的ViT编码器,专门针对北极遥感数据进行优化。
- 实验结果表明,与ImageNet初始化的ViT-Large基线相比,北极MAE预训练在多个数据集上均实现了5-8%的F1分数提升,且在所有下游比较中均优于Prithvi-EO-2.0。
📝 摘要(中文)
本研究通过结合多样性意识的区域尺度图像策划与掩蔽自编码器(MAE)自监督预训练,提出了一种新的北极遥感基础模型(RSFM),用于超高空间分辨率(VHSR)卫星图像分析。使用光谱和获取元数据描述符,在可扩展的亲和传播聚类工作流中选择了约300万张图像块,旨在减少视觉重复或低信息区域的过采样,同时保持研究领域的广泛场景多样性。通过在策划的语料库上预训练ViT-Large编码器,生成了适用于北极的变换器权重,显著提升了下游特征映射的性能。
🔬 方法详解
问题定义:本研究旨在解决现有遥感模型在北极地区超高分辨率图像分析中的数据多样性不足和特征迁移能力差的问题。现有方法往往无法有效处理视觉重复或低信息区域,导致模型性能下降。
核心思路:论文提出通过聚类引导的图像策划与掩蔽自编码器(MAE)自监督预训练相结合,优化北极遥感数据的预训练过程,以生成更具迁移能力的特征表示。
技术框架:整体架构包括数据策划、MAE自监督预训练和下游任务集成三个主要模块。首先,通过亲和传播聚类选择多样化的图像块,然后在选定的图像上进行ViT-Large编码器的预训练,最后将预训练的编码器集成到现有的检测和分割框架中进行评估。
关键创新:本研究的主要创新在于通过优化预训练数据分布,结合区域尺度的多样性意识,生成适用于北极的变换器编码器。这一方法显著提高了模型在特定领域的表现,与通用的地球观测基础模型相比,具有更好的特征迁移能力。
关键设计:在技术细节上,使用了光谱和获取元数据描述符进行聚类,选择了约300万张图像块进行预训练,采用了域适应的MAE重建目标,确保了生成的编码器在下游任务中的有效性。
📊 实验亮点
实验结果显示,北极MAE预训练在基础设施、IWP、RTS和TCNs四个手动标注的数据集上,F1分数分别达到了0.87、0.72、0.93和0.87,较基线提升了约5-8%。此外,该模型在所有下游比较中均优于Prithvi-EO-2.0,最小提升达到15%的F1分数,表明其在北极遥感应用中的有效性。
🎯 应用场景
该研究的成果可广泛应用于北极地区的遥感监测、环境变化分析和基础设施检测等领域。通过提供更准确的特征表示,能够有效支持科学研究和政策制定,促进对北极生态环境的保护与管理。
📄 摘要(原文)
This study introduces a novel Arctic-focused remote sensing foundation model (RSFM) by combining diversity-aware regional-scale image curation with masked autoencoder (MAE) self-supervised pretraining of a Vision Transformer (ViT) encoder for very-high-spatial-resolution (VHSR) satellite image analysis. Spectral and acquisition-metadata descriptors were used in a scalable affinity-propagation clustering workflow to select approximately 3 million chips from 267 TB of Vantor VHSR imagery This curation strategy was designed to reduce oversampling of visually repetitive or low-information areas while preserving broad scene diversity across the study domain. We pretrained a ViT-Large encoder on the curated corpus using a domain-adapted MAE reconstruction objective, producing Arctic-specific transformer weights for downstream feature mapping. The pretrained encoder was integrated into an existing location-aware detection and segmentation framework and evaluated across four hand-labeled Arctic datasets. Compared to ImageNet-initialized ViT-Large baseline, Arctic MAE pretraining produced consistent improvements in foreground mean F1 scores of 0.87, 0.72, 0.93, and 0.87, for infrastructure, IWP, RTS, and TCNs, with approximately 5-8 percentage increase. The proposed model also outperformed Prithvi-EO-2.0 in all downstream comparisons, with the smallest gain corresponding to at least a 15 percentage improvement mean F1, suggesting that domain-specific self-supervised pretraining on curated Arctic VHSR imagery provides more transferable representations for fine-scale Arctic mapping than a general-purpose Earth observation foundation model. These results demonstrate that optimizing the pretraining data distribution at regional scale, while keeping the architecture and MAE objective fixed, can produce a reusable Arctic-domain encoder for multiple VHSR remote sensing applications.