UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images

📄 arXiv: 2409.03431v3 📥 PDF

作者: Lulin Li, Ben Chen, Xuechao Zou, Junliang Xing, Pin Tao

分类: cs.CV

发布日期: 2024-09-05 (更新: 2024-09-09)

备注: 5 pages, 4 figures, 3 tables

🔗 代码/项目: GITHUB


💡 一句话要点

UV-Mamba:一种DCN增强的状态空间模型,用于高分辨率遥感影像中城中村边界识别

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 遥感影像 城中村边界识别 状态空间模型 可变形卷积 深度学习

📋 核心要点

  1. 遥感影像城中村边界识别面临地理环境复杂、景观多样和高密度居住区带来的挑战,现有方法难以兼顾精度和效率。
  2. UV-Mamba通过引入可变形卷积增强的状态空间模型,有效缓解了长序列建模中的记忆损失问题,提升了边界检测的准确性。
  3. 实验结果表明,UV-Mamba在两个大型数据集上取得了SOTA性能,IoU分别提升1.2%和3.4%,同时推理速度提升6倍,参数量减少40倍。

📝 摘要(中文)

由于地理环境的多样性、景观的复杂性和居住区的高密度,使用遥感图像自动识别城中村边界仍然是一项极具挑战性的任务。本文提出了一种新颖而高效的神经网络模型UV-Mamba,用于高分辨率遥感图像中的精确边界检测。UV-Mamba通过结合可变形卷积,缓解了状态空间模型在图像尺寸增大时,长序列建模中出现的记忆损失问题。其架构采用编码器-解码器框架,包括一个带有四个可变形状态空间增强块的编码器,用于高效的多层次语义提取,以及一个解码器,用于整合提取的语义信息。我们在两个大型数据集上进行了实验,表明UV-Mamba取得了最先进的性能。具体而言,我们的模型在北京和西安数据集上分别实现了73.3%和78.1%的IoU,相比之前的最佳模型,IoU分别提高了1.2%和3.4%,同时推理速度提高了6倍,参数量减少了40倍。源代码和预训练模型可在https://github.com/Devin-Egber/UV-Mamba 获取。

🔬 方法详解

问题定义:论文旨在解决高分辨率遥感影像中城中村边界精确识别的问题。现有方法,特别是基于传统卷积神经网络的方法,难以有效捕捉城中村复杂多变的几何形状和空间关系,并且在处理大尺寸遥感影像时计算量巨大,效率低下。状态空间模型在处理长序列数据方面具有优势,但直接应用于高分辨率遥感影像时,会面临严重的记忆损失问题,影响识别精度。

核心思路:论文的核心思路是利用可变形卷积增强状态空间模型(SSM)的能力,使其能够更好地适应城中村边界的不规则形状和复杂空间关系。通过可变形卷积,模型可以自适应地调整感受野,关注更重要的特征区域,从而提高边界识别的准确性。同时,SSM能够有效地建模长距离依赖关系,缓解传统卷积神经网络的感受野限制。

技术框架:UV-Mamba采用编码器-解码器结构。编码器部分由四个可变形状态空间增强块(Deformable State Space Augmentation Blocks)组成,用于提取多层次的语义信息。每个块都包含一个状态空间模型和一个可变形卷积模块,二者协同工作,增强特征提取能力。解码器部分则负责整合编码器提取的语义信息,最终生成城中村边界的预测结果。

关键创新:该论文的关键创新在于将可变形卷积与状态空间模型相结合,提出了Deformable State Space Augmentation Block。这种结合方式既利用了可变形卷积自适应感受野的优势,又发挥了状态空间模型建模长距离依赖关系的能力,从而有效提高了城中村边界识别的精度和效率。与直接使用卷积或纯状态空间模型相比,UV-Mamba能够更好地适应城中村的复杂几何形状和空间关系。

关键设计:UV-Mamba的关键设计包括:1) 可变形卷积模块的具体实现方式,例如卷积核的大小、偏移量的学习策略等;2) 状态空间模型的具体参数设置,例如状态向量的维度、转移矩阵的初始化方式等;3) 编码器和解码器的具体结构,例如层数、通道数、激活函数等;4) 损失函数的选择,例如交叉熵损失、Dice损失等。论文中可能还涉及一些训练技巧,例如学习率的调整策略、数据增强方法等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UV-Mamba在两个大型城中村遥感影像数据集(北京和西安)上取得了显著的性能提升。具体而言,在北京数据集上,UV-Mamba的IoU达到了73.3%,比之前的最佳模型提高了1.2%;在西安数据集上,IoU达到了78.1%,提高了3.4%。更重要的是,UV-Mamba在取得更高精度的同时,推理速度提高了6倍,参数量减少了40倍,表明其具有更高的效率和实用性。

🎯 应用场景

该研究成果可应用于城市规划、土地资源管理、灾害评估等领域。通过自动识别城中村边界,可以为政府部门提供决策支持,优化城市空间布局,改善居民生活环境。此外,该技术还可以扩展到其他遥感影像分析任务,例如建筑物提取、道路分割等,具有广泛的应用前景。

📄 摘要(原文)

Due to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images remains a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in lengthy sequence modeling, which arises in state space models with increasing image size, by incorporating deformable convolutions. Its architecture utilizes an encoder-decoder framework and includes an encoder with four deformable state space augmentation blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on two large datasets showing that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi'an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available at https://github.com/Devin-Egber/UV-Mamba.