MapSAM2: Adapting SAM2 for Automatic Segmentation of Historical Map Images and Time Series

📄 arXiv: 2510.27547v1 📥 PDF

作者: Xue Xia, Randall Balestriero, Tao Zhang, Yixin Zhou, Andrew Ding, Dev Saini, Lorenz Hurni

分类: cs.CV

发布日期: 2025-10-31


💡 一句话要点

MapSAM2:通过时序建模自适应分割历史地图图像,解决标注数据稀缺问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 历史地图分割 时间序列分析 少样本学习 视觉基础模型 伪时间序列

📋 核心要点

  1. 历史地图自动分析面临风格多变和标注数据稀缺的挑战,限制了时空数据集的构建和应用。
  2. MapSAM2将历史地图图像和时间序列视为视频,利用记忆注意力机制和伪时间序列生成,实现少样本微调。
  3. 实验表明,MapSAM2能有效学习时间关联,在有限监督下准确分割和链接时间序列中的建筑物。

📝 摘要(中文)

历史地图是记录不同时期地理特征的珍贵档案。然而,由于其风格多变和标注训练数据稀缺,历史地图图像的自动分析仍然是一个重大挑战。从历史地图时间序列构建链接的时空数据集更加耗时费力,因为它需要综合来自多个地图的信息。此类数据集对于建筑物年代测定、道路网络和聚落发展分析、环境变化研究等应用至关重要。我们提出了MapSAM2,一个用于自动分割历史地图图像和时间序列的统一框架。MapSAM2构建于视觉基础模型之上,通过少量样本微调来适应各种分割任务。我们的关键创新是将历史地图图像和时间序列都视为视频。对于图像,我们将一组瓦片作为视频处理,使记忆注意力机制能够整合来自相似瓦片的上下文线索,从而提高几何精度,特别是对于面积特征。对于时间序列,我们引入了带注释的Siegfried Building Time Series Dataset,并为了降低注释成本,提出通过模拟常见的时间变换,从单年地图生成伪时间序列。实验结果表明,MapSAM2能够有效地学习时间关联,并且可以在有限的监督下或使用伪视频准确地分割和链接时间序列中的建筑物。我们将发布我们的数据集和代码,以支持未来的研究。

🔬 方法详解

问题定义:论文旨在解决历史地图图像和时间序列的自动分割问题。现有方法面临的痛点在于历史地图的风格多样性以及缺乏足够的标注数据,导致模型难以泛化。特别是对于时间序列数据,人工标注成本高昂,阻碍了相关研究的进展。

核心思路:论文的核心思路是将历史地图图像和时间序列都视为视频进行处理。对于图像,将图像分割成瓦片序列,利用视频处理中的记忆注意力机制来捕捉瓦片之间的上下文信息,从而提高分割的几何精度。对于时间序列,通过生成伪时间序列来扩充训练数据,降低标注成本。

技术框架:MapSAM2的整体框架基于视觉基础模型SAM2,并针对历史地图的特点进行了改进。对于图像分割,首先将输入图像分割成一系列瓦片,然后将这些瓦片视为视频帧输入到SAM2中。SAM2利用其记忆注意力机制来学习瓦片之间的关系,从而提高分割的准确性。对于时间序列分割,首先利用单年地图生成伪时间序列,然后使用这些伪时间序列对SAM2进行微调,使其能够学习时间关联。

关键创新:论文的关键创新在于将历史地图图像和时间序列都视为视频进行处理。这种方法能够有效地利用视频处理中的技术来解决历史地图分割问题。此外,论文还提出了生成伪时间序列的方法,有效地降低了标注成本。与现有方法相比,MapSAM2能够更好地利用上下文信息,并且能够在有限的监督下实现准确的分割。

关键设计:在图像分割中,瓦片的大小和数量是一个重要的参数。论文中可能采用了实验验证的方式来选择合适的瓦片大小和数量。在时间序列分割中,伪时间序列的生成方式是一个关键的设计。论文中可能采用了模拟常见的时间变换(例如,建筑物的新建、拆除、扩建等)的方式来生成伪时间序列。损失函数方面,可能采用了标准的分割损失函数,例如交叉熵损失或Dice损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MapSAM2在Siegfried Building Time Series Dataset上取得了显著的成果,证明了其在时间序列分割方面的有效性。通过生成伪时间序列,MapSAM2在有限监督下也能实现较高的分割精度,显著降低了标注成本。实验结果表明,MapSAM2能够有效地学习时间关联,并准确地分割和链接时间序列中的建筑物。

🎯 应用场景

MapSAM2可应用于历史地理研究、城市规划、环境变化监测等领域。通过自动分割和分析历史地图,可以构建时空数据集,用于研究城市发展、土地利用变化、自然灾害影响等。该研究有助于更好地理解过去,为未来的规划和决策提供依据。

📄 摘要(原文)

Historical maps are unique and valuable archives that document geographic features across different time periods. However, automated analysis of historical map images remains a significant challenge due to their wide stylistic variability and the scarcity of annotated training data. Constructing linked spatio-temporal datasets from historical map time series is even more time-consuming and labor-intensive, as it requires synthesizing information from multiple maps. Such datasets are essential for applications such as dating buildings, analyzing the development of road networks and settlements, studying environmental changes etc. We present MapSAM2, a unified framework for automatically segmenting both historical map images and time series. Built on a visual foundation model, MapSAM2 adapts to diverse segmentation tasks with few-shot fine-tuning. Our key innovation is to treat both historical map images and time series as videos. For images, we process a set of tiles as a video, enabling the memory attention mechanism to incorporate contextual cues from similar tiles, leading to improved geometric accuracy, particularly for areal features. For time series, we introduce the annotated Siegfried Building Time Series Dataset and, to reduce annotation costs, propose generating pseudo time series from single-year maps by simulating common temporal transformations. Experimental results show that MapSAM2 learns temporal associations effectively and can accurately segment and link buildings in time series under limited supervision or using pseudo videos. We will release both our dataset and code to support future research.