Multi-Task Crack Foundation Model for Engineering-Reliable Crack Representation and Topology Preservation in Civil Infrastructure

📄 arXiv: 2606.05641v1 📥 PDF

作者: Blessing Agyei Kyem, Joshua Kofi Asamoah, Eugene Denteh, Armstrong Aboah

分类: cs.CV

发布日期: 2026-06-04

备注: 60 pages, 17 figures, 11 tables


💡 一句话要点

提出CrackGeoFM以解决土木基础设施裂缝评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 裂缝评估 多任务学习 土木工程 不确定性估计 图像分割 结构安全 基础设施维护

📋 核心要点

  1. 现有裂缝评估方法在高重叠分数的同时,常常导致裂缝的碎片化和细小分支的遗漏,缺乏可靠的不确定性估计。
  2. 本文提出的CrackGeoFM框架结合了多任务学习,利用冻结的视觉基础网络进行裂缝特征的适应和增强,解决了现有方法的不足。
  3. 在20个裂缝数据集上,CrackGeoFM实现了最先进的分割效果,显著提高了拓扑保持和不确定性校准,且仅需五张标注图像即可进行有效的少样本适应。

📝 摘要(中文)

可靠的裂缝评估不仅需要准确的像素级掩膜,还需要连接的裂缝几何形状和在领域转移下保持稳定的置信度估计。然而,现有的分割模型虽然能够获得高重叠分数,但常常导致裂缝碎片化、遗漏细小分支,并且缺乏经过校准的不确定性估计。为了解决这一问题,本文提出了CrackGeoFM,一个多任务框架,结合了冻结的视觉基础骨干网络与裂缝特定的适应性,用于掩膜预测、骨架重建和不确定性估计。该框架集成了频率引导裂缝增强模块(FCEM)、裂缝领域特征适应模块(CFAM)和结构感知多任务解码器(SMTD)。在20个裂缝数据集上,CrackGeoFM实现了最先进的分割效果、改进的拓扑保持、经过校准的不确定性和有效的少样本适应,仅需五张标注图像。这些结果支持了可靠、可推广和工程导向的基础设施裂缝分析。

🔬 方法详解

问题定义:本文旨在解决土木基础设施裂缝评估中的裂缝几何形状碎片化和不确定性估计不足的问题。现有方法虽然在分割精度上表现良好,但在裂缝的连通性和细节保留方面存在明显不足。

核心思路:CrackGeoFM框架通过多任务学习,结合冻结的视觉基础网络与裂缝特定的适应模块,旨在同时实现裂缝掩膜预测、骨架重建和不确定性估计,从而提升裂缝评估的可靠性和稳定性。

技术框架:该框架主要包括三个模块:频率引导裂缝增强模块(FCEM),用于增强高频裂缝特征;裂缝领域特征适应模块(CFAM),用于将冻结骨干网络的特征适应到裂缝领域模式;结构感知多任务解码器(SMTD),用于联合解码掩膜、骨架和不确定性。

关键创新:CrackGeoFM的主要创新在于其多任务学习框架,能够同时处理裂缝的多种特征,特别是在拓扑保持和不确定性校准方面的显著提升,这是现有方法所未能实现的。

关键设计:在设计上,FCEM模块通过频率引导机制增强裂缝特征,CFAM模块则通过特征适应技术提高模型对裂缝特征的敏感性,SMTD模块采用联合解码策略,确保各任务之间的信息共享与协同优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CrackGeoFM在20个裂缝数据集上实现了最先进的分割效果,显著提高了拓扑保持和不确定性校准。与基线模型相比,该框架在少样本适应方面表现出色,仅需五张标注图像即可达到有效的学习效果。

🎯 应用场景

该研究的潜在应用领域包括土木工程、基础设施维护和安全评估等。通过提供更可靠的裂缝评估工具,CrackGeoFM可以帮助工程师更有效地识别和管理基础设施中的裂缝问题,从而提高结构安全性和延长使用寿命。

📄 摘要(原文)

Reliable crack assessment requires not only accurate pixel-level masks but also connected crack geometry and confidence estimates that remain stable under domain shift. However, existing segmentation models can achieve high overlap scores while fragmenting cracks, missing fine branches, and providing no calibrated uncertainty. To address this gap, this paper proposes CrackGeoFM, a multi-task framework that combines a frozen visual foundation backbone with crack-specific adaptation for mask prediction, skeleton reconstruction, and uncertainty estimation. The framework integrates a Frequency-Guided Crack Enhancement Module (FCEM) to enhance high-frequency crack cues, a Crack-Domain Feature Adaptation Module (CFAM) to adapt frozen backbone features to crack-domain patterns, and a Structure-Aware Multi-Task Decoder (SMTD) to jointly decode masks, skeletons, and uncertainty. Across 20 crack datasets, CrackGeoFM achieves state-of-the-art segmentation, improved topology preservation, calibrated uncertainty, and effective few-shot adaptation with only five labeled images. These results support reliable, generalizable, and engineering-oriented crack analysis for infrastructure assessment.