Cracks in the Foundation: A Civil Infrastructure Dataset to Challenge Vision Foundation Models

📄 arXiv: 2605.18413v1 📥 PDF

作者: Nicola Farronato, Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Rizwan Ullah Khan, Michele Magno, Konrad Schindler, Cristiano Malossi, Florian Scheidegger

分类: cs.CV

发布日期: 2026-05-18


💡 一句话要点

发布土木基础设施裂缝数据集CiF,揭示视觉基础模型在结构健康监测中的局限性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 土木工程 结构健康监测 缺陷检测 图像分割 数据集 视觉基础模型 实例分割

📋 核心要点

  1. 土木基础设施缺陷分割数据极度稀缺,阻碍了结构健康监测的进展,专家标注成本高昂。
  2. 论文构建了大规模数据集CiF,旨在评估和改进视觉模型在土木基础设施缺陷检测中的性能。
  3. 实验表明,即使是最新的视觉基础模型在CiF数据集上的表现也远未达到实用水平,凸显了现有模型的局限性。

📝 摘要(中文)

为了解决土木基础设施缺陷分割数据稀缺的问题,本研究发布了迄今为止最大、最详细的土木基础设施实例分割数据集Cracks in the Foundation (CiF),包含约15万张高分辨率图像,由土木工程专家历时五年精心标注。该数据集揭示了当前视觉AI的一个盲点:尽管涌现了可提示的基础模型(FMs)和视觉语言模型(VLMs),以及现有的专用分割模型,但在建筑环境中的密集图像理解远未解决。评估表明,即使是最新的零样本FM在实际基础设施上部署时也面临重大挑战,并且具有领域特定监督的专用模型的性能也停滞在约25% mAP。CiF将土木基础设施的检测任务确立为一个公开挑战,揭示了当前主要在互联网图像上训练的模型存在的根本弱点。

🔬 方法详解

问题定义:论文旨在解决土木基础设施(如桥梁、建筑物等)的自动结构健康监测中,缺陷(如裂缝)的精确像素级分割问题。现有方法受限于数据稀缺,特别是高质量标注数据的缺乏,导致模型难以泛化到真实场景。此外,土木工程材料通常缺乏纹理,使得模型难以区分缺陷与背景,容易产生中心偏见。

核心思路:论文的核心思路是通过构建一个大规模、高质量的土木基础设施缺陷数据集CiF,来促进相关算法的研究和发展。该数据集旨在暴露现有视觉模型在处理此类任务时的弱点,并推动更有效模型的开发。

技术框架:该论文主要贡献在于数据集的构建,而非提出新的模型或算法。数据集的构建流程包括:1) 数据采集:收集大量土木基础设施的图像;2) 数据标注:由土木工程专家对图像中的缺陷进行精确的像素级标注;3) 数据清洗和验证:确保数据的质量和一致性。论文重点在于利用该数据集评估现有模型的性能。

关键创新:该论文的关键创新在于构建了迄今为止最大、最详细的土木基础设施实例分割数据集CiF。该数据集的规模和质量使其能够更全面地评估现有视觉模型在处理此类任务时的能力,并揭示其局限性。与现有数据集相比,CiF具有更高的分辨率、更精确的标注和更广泛的场景覆盖。

关键设计:CiF数据集包含约15万张高分辨率图像,涵盖多种土木基础设施类型和缺陷类型。图像由土木工程专家进行像素级标注,标注信息包括缺陷的类别、位置和形状。数据集的构建过程中,特别注意了数据的多样性和平衡性,以避免模型产生偏见。论文还提供了使用该数据集进行模型评估的基准代码和评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在CiF数据集上评估现有视觉模型,发现即使是最新的零样本基础模型在实际基础设施上的性能也远低于预期,专用模型的mAP也仅达到约25%。这些结果表明,当前视觉模型在处理土木基础设施缺陷检测任务时仍存在显著差距,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于土木工程领域的结构健康监测,通过自动化的缺陷检测和分割,提高基础设施维护的效率和安全性,降低人工巡检的成本。未来,结合无人机、机器人等技术,可实现对大型基础设施的自动化巡检和评估,为基础设施的安全运行提供保障。

📄 摘要(原文)

Automated structural health monitoring is essential to prevent catastrophic infrastructure failures. Precise, pixel-level defect segmentation is needed to accurately assess structural integrity, but progress in defect segmentation for civil infrastructures has been held back by an extreme scarcity of data, which requires costly expert annotation. The need for data is accentuated by algorithmic hurdles intrinsic to the problem, including center-bias and the need to rely more on shape when inspecting nearly textureless building materials. To remove the bottleneck, we introduce Cracks in the Foundation (CiF), the largest and most detailed civil infrastructure (instance) segmentation dataset to date, comprising $\approx$150,000 high-resolution images meticulously curated over five years in collaboration with civil engineering experts. With the help of this unprecedented data source, we expose a blind spot of current visual AI: despite the advent of promptable Foundation Models (FMs) and Vision Language Models (VLMs), and despite the impressive abilities of today's specialised segmentation models, it turns out that dense image understanding in the built environment is nowhere near solved. Our evaluations indicate that even the most recent zero-shot FMs face significant challenges when deployed on real-world infrastructure and even the performance of specialised models with domain-specific supervision plateaus at $\approx$25% mAP. CiF establishes inspection of civil infrastructure, an elementary and seemingly easy perceptual task, as an open challenge that reveals fundamental weaknesses of present-day models trained predominantly on internet images, literally and figuratively highlighting cracks in the current foundation model paradigm.