Topology-aware Mamba for Crack Segmentation in Structures

📄 arXiv: 2410.19894v1 📥 PDF

作者: Xin Zuo, Yu Sheng, Jifeng Shen, Yongwei Shan

分类: cs.CV

发布日期: 2024-10-25

备注: Published at Journal of Automation in Construction

🔗 代码/项目: GITHUB


💡 一句话要点

提出CrackMamba以解决基础设施裂缝分割问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 裂缝分割 结构健康监测 深度学习 视觉变换器 特征提取 基础设施安全 计算机视觉

📋 核心要点

  1. 现有的卷积神经网络在裂缝分割任务中感受野有限,导致分割精度不足,而视觉变换器计算开销较大。
  2. CrackMamba通过引入VMambaV2作为编码器和新设计的解码器,结合Snake Scan模块和SCVSS块,提升了裂缝特征提取能力。
  3. 实验结果显示,CrackMamba在多个数据集上实现了最先进的性能,展示了其在裂缝分割任务中的有效性和泛化能力。

📝 摘要(中文)

CrackMamba是一种基于Mamba的模型,旨在高效且准确地进行裂缝分割,以监测基础设施的结构健康。传统的卷积神经网络(CNN)模型在感受野方面存在局限,而视觉变换器(ViT)虽然提高了分割精度,但计算开销较大。CrackMamba通过利用预训练的ImageNet-1k权重的VMambaV2作为编码器,并设计了新的解码器来提升性能。为应对裂缝发展的随机性和复杂性,提出了Snake Scan模块以重塑裂缝特征序列,增强特征提取。此外,提出了三分支Snake Conv VSS(SCVSS)模块,以更有效地针对裂缝。实验表明,CrackMamba在CrackSeg9k和SewerCrack数据集上达到了最先进的性能,并在视网膜血管分割数据集CHASE_DB1上表现出竞争力,突显了其泛化能力。

🔬 方法详解

问题定义:本论文旨在解决基础设施裂缝分割的挑战,现有方法如CNN在处理复杂裂缝特征时存在感受野不足的问题,而ViT虽然提高了精度,但计算成本较高。

核心思路:CrackMamba通过结合VMambaV2作为编码器和新设计的解码器,利用Snake Scan模块来重塑裂缝特征序列,从而增强特征提取的能力。

技术框架:CrackMamba的整体架构包括编码器、解码器和特征提取模块。编码器采用预训练的VMambaV2,解码器则是针对裂缝特征优化设计的。Snake Scan模块和SCVSS块则用于提升裂缝特征的提取和分割效果。

关键创新:最重要的技术创新在于引入了Snake Scan模块和三分支SCVSS块,这些设计使得模型能够更有效地处理裂缝的随机性和复杂性,与传统方法相比,显著提升了分割精度。

关键设计:在网络结构上,CrackMamba采用了多分支设计以增强特征提取能力,损失函数则针对裂缝分割任务进行了优化,确保了模型在训练过程中的有效性。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CrackMamba在CrackSeg9k和SewerCrack数据集上达到了最先进的性能,具体表现为分割精度显著提升,且在CHASE_DB1数据集上也展现出良好的竞争力,表明其具有较强的泛化能力和应用潜力。

🎯 应用场景

该研究的潜在应用领域包括基础设施监测、建筑安全评估和城市管理等。CrackMamba的高效裂缝分割能力能够帮助工程师及时发现和评估结构损伤,从而提高基础设施的安全性和可靠性。未来,该技术有望在更多领域得到推广应用,促进智能监测系统的发展。

📄 摘要(原文)

CrackMamba, a Mamba-based model, is designed for efficient and accurate crack segmentation for monitoring the structural health of infrastructure. Traditional Convolutional Neural Network (CNN) models struggle with limited receptive fields, and while Vision Transformers (ViT) improve segmentation accuracy, they are computationally intensive. CrackMamba addresses these challenges by utilizing the VMambaV2 with pre-trained ImageNet-1k weights as the encoder and a newly designed decoder for better performance. To handle the random and complex nature of crack development, a Snake Scan module is proposed to reshape crack feature sequences, enhancing feature extraction. Additionally, the three-branch Snake Conv VSS (SCVSS) block is proposed to target cracks more effectively. Experiments show that CrackMamba achieves state-of-the-art (SOTA) performance on the CrackSeg9k and SewerCrack datasets, and demonstrates competitive performance on the retinal vessel segmentation dataset CHASE\underline{~}DB1, highlighting its generalization capability. The code is publicly available at: {https://github.com/shengyu27/CrackMamba.}