MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps

📄 arXiv: 2411.06971v1 📥 PDF

作者: Xue Xia, Daiwei Zhang, Wenxuan Song, Wei Huang, Lorenz Hurni

分类: cs.CV

发布日期: 2024-11-11


💡 一句话要点

MapSAM:通过高效微调SAM实现历史地图要素自动检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 历史地图分割 要素自动检测 Segment Anything Model 参数高效微调 DoRA

📋 核心要点

  1. 历史地图要素自动检测受限于高质量训练数据的手动标注,耗时且成本高昂。
  2. MapSAM通过参数高效微调SAM,结合DoRA、自动提示生成和位置-语义提示增强,实现无提示的要素分割。
  3. 实验表明,MapSAM在少量样本下也能有效适应不同类型的历史地图要素分割任务,性能优异。

📝 摘要(中文)

历史地图要素的自动检测能够显著加速地理空间历史的重建。然而,这一过程通常受限于手动数字化足够高质量训练数据所需耗费的时间。视觉基础模型,如Segment Anything Model (SAM),因其卓越的泛化能力和对新数据分布的快速适应性,提供了一个有希望的解决方案。尽管如此,直接以零样本方式将SAM应用于历史地图分割面临着重大挑战,包括对某些地理空间要素的识别不佳以及对输入提示的依赖,这限制了其完全自动化的能力。为了应对这些挑战,我们引入了MapSAM,这是一种参数高效的微调策略,可将SAM调整为用于各种下游历史地图分割任务的无提示且通用的解决方案。具体来说,我们采用权重分解低秩自适应(DoRA)将领域特定知识集成到图像编码器中。此外,我们开发了一种自动提示生成过程,无需手动输入。我们进一步增强了SAM中的位置提示,将其转换为更高级的位置-语义提示,并使用掩码注意力修改了掩码解码器中的交叉注意力机制,以实现更有效的特征聚合。所提出的MapSAM框架在两个不同的历史地图分割任务中表现出良好的性能:一个侧重于线性要素,另一个侧重于面状要素。实验结果表明,即使使用极少量的数据(例如10个样本)进行微调,它也能很好地适应各种要素。

🔬 方法详解

问题定义:论文旨在解决历史地图中地理要素自动检测的问题。现有方法依赖于大量人工标注的训练数据,成本高昂且耗时。直接应用零样本的SAM模型,由于历史地图的独特性质(如风格差异、图像质量等),分割效果不佳,且依赖人工提示,无法实现完全自动化。

核心思路:论文的核心思路是通过参数高效的微调策略,将SAM模型适应于历史地图的特定领域。通过引入领域知识,增强模型对历史地图要素的识别能力,并设计自动提示生成机制,摆脱对人工提示的依赖,实现自动化分割。

技术框架:MapSAM框架主要包含以下几个模块:1) 图像编码器:使用DoRA进行参数高效的微调,将领域知识融入SAM的图像编码器。2) 自动提示生成器:自动生成位置提示,无需人工干预。3) 提示编码器:将位置提示转换为位置-语义提示,增强提示的表达能力。4) 掩码解码器:使用掩码注意力机制改进交叉注意力,更有效地聚合特征。

关键创新:MapSAM的关键创新在于:1) 提出了基于DoRA的参数高效微调策略,能够在少量数据下快速适应历史地图领域。2) 设计了自动提示生成机制,摆脱了对人工提示的依赖,实现了完全自动化。3) 将位置提示增强为位置-语义提示,并改进了掩码解码器中的交叉注意力机制,提高了分割精度。

关键设计:1) 使用DoRA微调图像编码器,显著减少了需要训练的参数量。2) 自动提示生成器基于图像特征生成位置提示。3) 位置-语义提示通过结合位置信息和图像特征,提供更丰富的上下文信息。4) 掩码注意力机制通过引入掩码,限制了交叉注意力的范围,提高了特征聚合的效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MapSAM在两个不同的历史地图分割任务上进行了实验,包括线性要素(如道路)和面状要素(如湖泊)的分割。实验结果表明,即使仅使用10个样本进行微调,MapSAM也能取得显著的分割效果,优于直接应用SAM的零样本方法。这证明了MapSAM在少量数据下的快速适应能力和有效性。

🎯 应用场景

MapSAM可应用于历史地图的数字化和地理空间信息重建,加速历史地理研究,辅助城市规划和遗产保护。通过自动提取历史地图中的道路、河流、建筑物等要素,可以构建历史地理信息系统,为相关研究提供数据支持,并为公众提供更直观的历史地理信息服务。

📄 摘要(原文)

Automated feature detection in historical maps can significantly accelerate the reconstruction of the geospatial past. However, this process is often constrained by the time-consuming task of manually digitizing sufficient high-quality training data. The emergence of visual foundation models, such as the Segment Anything Model (SAM), offers a promising solution due to their remarkable generalization capabilities and rapid adaptation to new data distributions. Despite this, directly applying SAM in a zero-shot manner to historical map segmentation poses significant challenges, including poor recognition of certain geospatial features and a reliance on input prompts, which limits its ability to be fully automated. To address these challenges, we introduce MapSAM, a parameter-efficient fine-tuning strategy that adapts SAM into a prompt-free and versatile solution for various downstream historical map segmentation tasks. Specifically, we employ Weight-Decomposed Low-Rank Adaptation (DoRA) to integrate domain-specific knowledge into the image encoder. Additionally, we develop an automatic prompt generation process, eliminating the need for manual input. We further enhance the positional prompt in SAM, transforming it into a higher-level positional-semantic prompt, and modify the cross-attention mechanism in the mask decoder with masked attention for more effective feature aggregation. The proposed MapSAM framework demonstrates promising performance across two distinct historical map segmentation tasks: one focused on linear features and the other on areal features. Experimental results show that it adapts well to various features, even when fine-tuned with extremely limited data (e.g. 10 shots).