MapSR: Prompt-Driven Land Cover Map Super-Resolution via Vision Foundation Models

📄 arXiv: 2604.14582v1 📥 PDF

作者: Ruiqi Wang, Qi Yu, Jie Ma, Hanlin Wu

分类: cs.CV

发布日期: 2026-04-16

🔗 代码/项目: GITHUB


💡 一句话要点

MapSR:基于视觉基础模型的提示驱动型地表覆盖超分辨率方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地表覆盖超分辨率 视觉基础模型 提示学习 弱监督学习 遥感图像 免训练推理

📋 核心要点

  1. 现有高分辨率地表覆盖制图方法依赖大量标注数据,成本高昂,弱监督方法计算开销大。
  2. MapSR通过提示学习解耦监督与训练,利用低分辨率标签提取视觉基础模型特征中的类别提示。
  3. 实验表明,MapSR在无高分辨率标签下达到与强弱监督基线相当甚至超越的性能,且显著降低计算成本。

📝 摘要(中文)

高分辨率(HR)地表覆盖制图通常受限于高昂的密集HR标注成本。本文从地图超分辨率的角度重新审视这个问题,即将粗糙的低分辨率(LR)地表覆盖产品增强为具有输入图像分辨率的HR地图。现有的弱监督方法可以利用LR标签,但通常使用它们来重新训练密集的预测器,计算成本很高。我们提出了MapSR,一个提示驱动的框架,将监督与模型训练解耦。MapSR仅使用一次LR标签,通过轻量级的线性探针从冻结的视觉基础模型特征中提取类别提示,之后通过免训练的度量推理和基于图的预测细化来进行HR映射。具体来说,类别提示是通过聚合线性探针识别的高置信度HR特征来估计的,HR预测是通过余弦相似度匹配,然后进行基于图的传播以进行空间细化来获得的。在切萨皮克湾数据集上的实验表明,MapSR在没有任何HR标签的情况下实现了59.64%的mIoU,与最强的弱监督基线保持竞争力,并超过了完全监督的基线。值得注意的是,MapSR将可训练参数减少了四个数量级,并将训练时间从数小时缩短到数分钟,从而能够在有限的标注和计算预算下实现可扩展的HR映射。

🔬 方法详解

问题定义:论文旨在解决地表覆盖地图超分辨率问题,即如何将低分辨率地表覆盖地图提升到高分辨率,同时避免高昂的高分辨率标注成本。现有弱监督方法虽然可以利用低分辨率标签,但需要重新训练密集的预测器,计算成本高昂。

核心思路:论文的核心思路是利用预训练的视觉基础模型,通过低分辨率标签提取类别提示,然后使用这些提示进行高分辨率预测,而无需重新训练整个模型。这种方法将监督信号与模型训练解耦,从而显著降低了计算成本。

技术框架:MapSR框架主要包含两个阶段:1) 类别提示提取:使用低分辨率标签,通过轻量级的线性探针从冻结的视觉基础模型特征中提取类别提示。具体来说,首先使用线性探针识别高置信度的HR特征,然后将这些特征聚合起来作为类别提示。2) 高分辨率预测:使用提取的类别提示,通过免训练的度量推理和基于图的预测细化来进行HR映射。具体来说,首先计算HR特征与类别提示之间的余弦相似度,然后使用基于图的传播进行空间细化。

关键创新:MapSR的关键创新在于将监督信号与模型训练解耦,通过提示学习的方式利用预训练的视觉基础模型。与现有方法相比,MapSR无需重新训练整个模型,从而显著降低了计算成本。此外,MapSR还使用了基于图的预测细化方法,进一步提高了预测精度。

关键设计:MapSR的关键设计包括:1) 使用冻结的视觉基础模型,避免了重新训练整个模型的计算成本。2) 使用轻量级的线性探针提取类别提示,降低了训练成本。3) 使用余弦相似度匹配进行HR预测,简单有效。4) 使用基于图的传播进行空间细化,提高了预测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MapSR在切萨皮克湾数据集上取得了显著成果,在没有高分辨率标签的情况下实现了59.64%的mIoU,与最强的弱监督基线相当,甚至超过了完全监督的基线。更重要的是,MapSR将可训练参数减少了四个数量级,并将训练时间从数小时缩短到数分钟,极大地降低了计算成本。

🎯 应用场景

MapSR可应用于遥感图像分析、城市规划、环境监测等领域。通过低成本地提升地表覆盖地图的分辨率,可以更准确地了解地表覆盖状况,为相关决策提供支持。该方法在标注数据有限或计算资源受限的情况下具有重要应用价值,有助于推动遥感图像智能解译的普及。

📄 摘要(原文)

High-resolution (HR) land-cover mapping is often constrained by the high cost of dense HR annotations. We revisit this problem from the perspective of map super-resolution, which enhances coarse low-resolution (LR) land-cover products into HR maps at the resolution of the input imagery. Existing weakly supervised methods can leverage LR labels, but they typically use them to retrain dense predictors with substantial computational cost. We propose MapSR, a prompt-driven framework that decouples supervision from model training. MapSR uses LR labels once to extract class prompts from frozen vision foundation model features through a lightweight linear probe, after which HR mapping proceeds via training-free metric inference and graph-based prediction refinement. Specifically, class prompts are estimated by aggregating high-confidence HR features identified by the linear probe, and HR predictions are obtained by cosine-similarity matching followed by graph-based propagation for spatial refinement. Experiments on the Chesapeake Bay dataset show that MapSR achieves 59.64% mIoU without any HR labels, remaining competitive with the strongest weakly supervised baseline and surpassing a fully supervised baseline. Notably, MapSR reduces trainable parameters by four orders of magnitude and shortens training time from hours to minutes, enabling scalable HR mapping under limited annotation and compute budgets. The code is available at https://github.com/rikirikirikiriki/MapSR.