BuildMamba: A Visual State-Space Based Model for Multi-Task Building Segmentation and Height Estimation from Satellite Images
作者: Sinan U. Ulu, A. Enes Doruk, I. Can Yagmur, Bahadir K. Gunturk, Oguz Hanoglu, Hasan F. Ates
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
BuildMamba:用于卫星图像多任务建筑物分割与高度估计的视觉状态空间模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 建筑物分割 高度估计 卫星图像 视觉状态空间模型 Mamba 多任务学习 城市重建
📋 核心要点
- 现有方法在单视角卫星图像建筑物分割和高度估计中,存在边界模糊和高层建筑高度低估的问题,难以满足城市分析需求。
- BuildMamba利用视觉状态空间模型的全局建模能力,通过Mamba注意力、空间感知Mamba-FPN和掩码感知高度细化模块,实现更精确的分割和高度估计。
- 实验表明,BuildMamba在建筑物分割和高度估计任务上均超越了现有技术,并在大规模3D城市重建中表现出良好的鲁棒性和可扩展性。
📝 摘要(中文)
本文提出BuildMamba,一个统一的多任务框架,旨在利用视觉状态空间模型的线性时间全局建模能力,解决单视角RGB卫星图像中建筑物分割和高度估计问题。现有方法通常采用单目深度架构,但容易出现边界模糊和高层建筑系统性低估的问题。BuildMamba引入三个模块:用于动态空间重校准的Mamba注意力模块、通过门控状态空间扫描进行多尺度特征聚合的空间感知Mamba-FPN,以及使用语义先验抑制高度伪影的掩码感知高度细化模块。实验结果表明,BuildMamba在三个基准测试中建立了新的性能上限,在DFC23基准测试中实现了0.93的IoU和1.77米的RMSE,在高度估计方面超越了现有技术0.82米。仿真结果证实了该模型在大规模3D城市重建中的优越鲁棒性和可扩展性。
🔬 方法详解
问题定义:论文旨在解决从单视角RGB卫星图像中进行精确的建筑物分割和高度估计的问题。现有方法,特别是基于单目深度估计的架构,在处理此类任务时,面临两个主要痛点:一是分割结果的边界模糊问题,二是对于高层建筑的高度估计存在系统性的低估现象。这些问题限制了城市分析的准确性和可靠性。
核心思路:论文的核心思路是利用视觉状态空间模型(Visual State-Space Models)的线性时间全局建模能力,从而更有效地捕捉图像中的长程依赖关系和上下文信息。通过这种方式,模型能够更好地理解建筑物的结构特征,从而提高分割的准确性和高度估计的精度。此外,论文还通过引入特定的模块来解决边界模糊和高度低估的问题。
技术框架:BuildMamba的整体架构是一个统一的多任务框架,包含三个主要模块:1) Mamba注意力模块(Mamba Attention Module):用于动态空间重校准,增强模型对建筑物结构特征的感知能力。2) 空间感知Mamba-FPN(Spatial-Aware Mamba-FPN):通过门控状态空间扫描进行多尺度特征聚合,融合不同尺度的信息,提高分割和高度估计的鲁棒性。3) 掩码感知高度细化模块(Mask-Aware Height Refinement module):利用语义先验知识,抑制高度估计中的伪影,提高高度估计的准确性。
关键创新:BuildMamba的关键创新在于将视觉状态空间模型应用于建筑物分割和高度估计任务,并设计了专门的模块来解决现有方法的局限性。Mamba注意力模块和空间感知Mamba-FPN的引入,使得模型能够更有效地捕捉全局上下文信息,从而提高分割和高度估计的准确性。掩码感知高度细化模块则通过利用语义先验知识,进一步提高了高度估计的精度。
关键设计:Mamba注意力模块的具体实现细节(例如,状态空间的维度、扫描方式等)未知。空间感知Mamba-FPN的关键在于门控机制的设计,它控制了不同尺度特征的融合方式。掩码感知高度细化模块则需要根据分割结果生成掩码,并将其作为高度估计的先验信息。损失函数的设计可能包括分割损失(例如,交叉熵损失或Dice损失)和高度估计损失(例如,L1损失或L2损失)。
🖼️ 关键图片
📊 实验亮点
BuildMamba在DFC23基准测试中取得了显著的性能提升,实现了0.93的IoU和1.77米的RMSE,在高度估计方面超越了现有技术0.82米。这些结果表明,BuildMamba在建筑物分割和高度估计任务上具有优越的性能。仿真结果也证实了该模型在大规模3D城市重建中的鲁棒性和可扩展性。
🎯 应用场景
BuildMamba在城市规划、城市管理、灾害评估等领域具有广泛的应用前景。精确的建筑物分割和高度估计可以为城市的三维重建、人口密度分析、建筑物能耗评估等提供重要的数据支持。此外,该技术还可以用于灾后快速评估,例如地震或洪水后的建筑物受损情况评估,为救援工作提供决策依据。未来,该技术有望应用于自动驾驶、虚拟现实等领域。
📄 摘要(原文)
Accurate building segmentation and height estimation from single-view RGB satellite imagery are fundamental for urban analytics, yet remain ill-posed due to structural variability and the high computational cost of global context modeling. While current approaches typically adapt monocular depth architectures, they often suffer from boundary bleeding and systematic underestimation of high-rise structures. To address these limitations, we propose BuildMamba, a unified multi-task framework designed to exploit the linear-time global modeling of visual state-space models. Motivated by the need for stronger structural coupling and computational efficiency, we introduce three modules: a Mamba Attention Module for dynamic spatial recalibration, a Spatial-Aware Mamba-FPN for multi-scale feature aggregation via gated state-space scans, and a Mask-Aware Height Refinement module using semantic priors to suppress height artifacts. Extensive experiments demonstrate that BuildMamba establishes a new performance upper bound across three benchmarks. Specifically, it achieves an IoU of 0.93 and RMSE of 1.77~m on DFC23 benchmark, surpassing state-of-the-art by 0.82~m in height estimation. Simulation results confirm the model's superior robustness and scalability for large-scale 3D urban reconstruction.