Can Large Multimodal Models Inspect Buildings? A Hierarchical Benchmark for Structural Pathology Reasoning

📄 arXiv: 2603.20148v1 📥 PDF

作者: Hui Zhong, Yichun Gao, Luyan Liu, Hai Yang, Wang Wang, Haowei Zhang, Xinhu Zheng

分类: cs.CV

发布日期: 2026-03-20


💡 一句话要点

提出DefectBench,用于评估大模型在建筑结构病理推理中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 建筑检测 结构病理 基准测试 语义分割 零样本学习 人机协作

📋 核心要点

  1. 现有建筑立面检测方法依赖专门模型,缺乏对结构拓扑的视觉理解,泛化能力受限。
  2. 论文提出DefectBench基准,通过人机协作标注框架,统一分散数据集,评估LMMs在建筑病理推理中的能力。
  3. 实验表明LMMs在语义理解方面表现出色,但在度量定位精度方面存在不足,零样本生成分割具有潜力。

📝 摘要(中文)

自动化的建筑立面检测是城市韧性和智慧城市维护的关键组成部分。传统方法依赖于专门的判别模型,擅长像素级定位,但受限于被动感知和泛化能力,缺乏解释结构拓扑的视觉理解。大型多模态模型(LMMs)有望实现向主动推理的范式转变,但其在此类高风险工程领域的应用缺乏严格的评估标准。为了弥合这一差距,我们引入了一种人机协作的半自动化标注框架,利用专家提议验证将12个分散的数据集统一为标准化的分层本体。在此基础上,我们提出了DefectBench,这是第一个多维度基准,旨在超越基本语义识别来考察LMMs。DefectBench在三个不断提升的认知维度上评估了18个最先进的LMMs:语义感知、空间定位和生成几何分割。大量实验表明,虽然当前的LMMs表现出卓越的拓扑意识和语义理解,但在度量定位精度方面存在显著缺陷。然而,至关重要的是,我们验证了零样本生成分割的可行性,表明通用基础模型可以在没有领域特定训练的情况下与专门的监督网络相媲美。这项工作提供了一个严格的基准测试标准和一个高质量的开源数据库,为民用工程中自主AI代理的进步奠定了新的基线。

🔬 方法详解

问题定义:现有建筑立面检测方法,如YOLO和Mask R-CNN,虽然在像素级定位上表现出色,但缺乏对建筑结构拓扑的理解,导致泛化能力不足。这些方法主要依赖于被动感知,无法进行主动推理,难以适应复杂多变的实际场景。因此,需要一种能够进行主动推理,并具备良好泛化能力的建筑检测方法。

核心思路:论文的核心思路是利用大型多模态模型(LMMs)的强大语义理解和推理能力,结合人机协作的标注框架,构建一个用于评估LMMs在建筑结构病理推理能力的基准数据集DefectBench。通过该基准,可以系统地评估LMMs在语义感知、空间定位和生成几何分割等方面的性能,从而推动LMMs在建筑检测领域的应用。

技术框架:DefectBench的构建主要包含两个阶段:数据标注和基准测试。数据标注阶段采用人机协作的半自动化标注框架,首先由专家提出候选区域,然后通过验证进行确认,从而将12个分散的数据集统一为标准化的分层本体。基准测试阶段,使用DefectBench评估18个SOTA的LMMs在三个认知维度上的性能:语义感知(理解“是什么”)、空间定位(理解“在哪里”)和生成几何分割(理解“如何”)。

关键创新:论文的关键创新在于:1) 提出了DefectBench,这是第一个多维度基准,用于评估LMMs在建筑结构病理推理中的能力。2) 采用人机协作的标注框架,有效整合了多个分散的数据集。3) 验证了零样本生成分割在建筑检测中的可行性,表明通用基础模型可以在没有领域特定训练的情况下与专门的监督网络相媲美。

关键设计:DefectBench包含三个认知维度:语义感知、空间定位和生成几何分割。语义感知主要评估LMMs对建筑结构和病害类型的识别能力。空间定位评估LMMs对病害位置的精确度量能力。生成几何分割评估LMMs生成病害区域分割掩码的能力。在实验中,使用了18个SOTA的LMMs,并针对每个维度设计了相应的评估指标。例如,空间定位的评估指标包括IoU(交并比)等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前的LMMs在拓扑意识和语义理解方面表现出色,但在度量定位精度方面存在不足。然而,零样本生成分割的实验结果令人鼓舞,表明通用基础模型可以在没有领域特定训练的情况下与专门的监督网络相媲美。这为LMMs在建筑检测领域的应用提供了新的思路。

🎯 应用场景

该研究成果可应用于智慧城市建设、建筑维护和城市安全等领域。通过利用LMMs进行自动化的建筑立面检测,可以提高检测效率,降低人工成本,并及时发现潜在的安全隐患。此外,该研究为开发自主AI代理在民用工程领域的应用奠定了基础。

📄 摘要(原文)

Automated building facade inspection is a critical component of urban resilience and smart city maintenance. Traditionally, this field has relied on specialized discriminative models (e.g., YOLO, Mask R-CNN) that excel at pixel-level localization but are constrained to passive perception and worse generization without the visual understandng to interpret structural topology. Large Multimodal Models (LMMs) promise a paradigm shift toward active reasoning, yet their application in such high-stakes engineering domains lacks rigorous evaluation standards. To bridge this gap, we introduce a human-in-the-loop semi-automated annotation framework, leveraging expert-proposal verification to unify 12 fragmented datasets into a standardized, hierarchical ontology. Building on this foundation, we present \textit{DefectBench}, the first multi-dimensional benchmark designed to interrogate LMMs beyond basic semantic recognition. \textit{DefectBench} evaluates 18 state-of-the-art (SOTA) LMMs across three escalating cognitive dimensions: Semantic Perception, Spatial Localization, and Generative Geometry Segmentation. Extensive experiments reveal that while current LMMs demonstrate exceptional topological awareness and semantic understanding (effectively diagnosing "what" and "how"), they exhibit significant deficiencies in metric localization precision ("where"). Crucially, however, we validate the viability of zero-shot generative segmentation, showing that general-purpose foundation models can rival specialized supervised networks without domain-specific training. This work provides both a rigorous benchmarking standard and a high-quality open-source database, establishing a new baseline for the advancement of autonomous AI agents in civil engineering.