Training-Free Tunnel Defect Inspection and Engineering Interpretation via Visual Recalibration and Entity Reconstruction

作者: Shipeng Liu, Liang Zhao, Dengfeng Chen, Zhanping Song

分类: cs.CV, cs.AI

发布日期: 2026-04-30

💡 一句话要点

提出TunnelMIND，通过视觉重校准和实体重建实现免训练的隧道缺陷检测与工程解读。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 隧道缺陷检测 免训练学习 视觉重校准 实体重建 工程评估

📋 核心要点

现有免训练方法在隧道检测中存在缺陷定位粗略、难以直接应用的问题，无法满足工程需求。
TunnelMIND通过视觉一致性重校准缺陷提议，并将其重构为结构化实体，从而提供更精确的缺陷信息。
实验表明，TunnelMIND在可见、GPR和道路缺陷检测任务上均取得了显著的F1分数，验证了其有效性。

📝 摘要（中文）

隧道检测需要能够支持缺陷定位、测量、严重程度分级和工程文档的输出。现有的免训练基础模型流程通常止步于粗略的开放词汇提议，难以直接应用于干扰严重的隧道场景。我们提出了一种免训练框架TunnelMIND。具体来说，语言引导的缺陷提议不被视为最终输出；相反，它们的空间支持在推理时通过密集视觉一致性进行重新校准，从而将粗略的语义锚点转换为隧道特定硬负例下更可靠的提示。生成的掩码进一步被重构为具有类别、位置、几何形状、严重程度和上下文属性的结构化缺陷实体，然后在专家知识约束下映射到检索支持的解释和工程可读的报告生成。在可见、GPR和道路缺陷任务上，TunnelMIND分别实现了0.68、0.78和0.72的F1分数。总的来说，TunnelMIND表明，免训练隧道检测可以超越粗略定位，转向用于工程评估的结构化缺陷证据。

🔬 方法详解

问题定义：论文旨在解决隧道缺陷检测中，现有免训练方法定位精度不足、难以提供结构化工程信息的问题。现有方法通常只能给出粗略的开放词汇提议，无法直接应用于干扰严重的隧道场景，难以满足工程评估的需求。

核心思路：论文的核心思路是利用视觉一致性对语言引导的缺陷提议进行重校准，从而提高定位精度。此外，通过将缺陷掩码重构为结构化实体，提供类别、位置、几何形状、严重程度和上下文等更丰富的缺陷信息，从而支持工程评估。

技术框架：TunnelMIND框架主要包含以下几个阶段：1) 语言引导的缺陷提议生成：利用预训练模型生成粗略的缺陷提议。2) 视觉重校准：通过密集视觉一致性对缺陷提议的空间支持进行重新校准，提高定位精度。3) 缺陷实体重建：将校准后的缺陷掩码重构为结构化缺陷实体，包含类别、位置、几何形状、严重程度和上下文等属性。4) 报告生成：基于结构化缺陷实体，生成检索支持的解释和工程可读的报告。

关键创新：该论文的关键创新在于：1) 提出了基于视觉一致性的缺陷提议重校准方法，有效提高了免训练隧道缺陷检测的定位精度。2) 提出了缺陷实体重建方法，将缺陷掩码转化为结构化信息，为工程评估提供了更丰富的数据支持。3) 将专家知识融入到报告生成过程中，使得生成的报告更具工程价值。

关键设计：视觉重校准模块利用密集视觉一致性来优化缺陷提议的空间支持。具体来说，对于每个缺陷提议，计算其内部像素之间的视觉相似性，并利用该相似性来调整提议的边界。缺陷实体重建模块利用几何建模和上下文分析等技术，将缺陷掩码转化为结构化信息。报告生成模块利用检索增强生成技术，从专家知识库中检索相关信息，并将其融入到生成的报告中。

🖼️ 关键图片

📊 实验亮点

TunnelMIND在可见、GPR和道路缺陷检测任务上分别取得了0.68、0.78和0.72的F1分数，显著优于现有的免训练方法。实验结果表明，该方法能够有效提高缺陷检测的精度和效率，为工程评估提供更可靠的数据支持。

🎯 应用场景

TunnelMIND可应用于隧道、桥梁等基础设施的自动化缺陷检测与评估，降低人工检测成本，提高检测效率和准确性。该技术还可扩展到其他领域的缺陷检测，例如道路、建筑物等，具有广泛的应用前景。

📄 摘要（原文）

Tunnel inspection requires outputs that can support defect localization, measurement, severity grading, and engineering documentation. Existing training-free foundation-model pipelines usually stop at coarse open-vocabulary proposals, which are difficult to use directly in interference-heavy tunnel scenes. We propose a training-free framework TunnelMIND. Specifically, language-guided defect proposals are not treated as final outputs; instead, their spatial support is recalibrated at inference time through dense visual consistency, so that coarse semantic anchors can be transformed into more reliable prompts under tunnel-specific hard negatives. The resulting masks are further reconstructed into structured defect entities with category, location, geometry, severity, and context attributes, which are then mapped to retrieval-grounded explanation and engineering-readable report generation under expert knowledge constraints. On visible, GPR, and road defect tasks, TunnelMIND achieves F1 scores of 0.68, 0.78, and 0.72, respectively. Overall, TunnelMIND shows that training-free tunnel inspection can move beyond coarse localization toward structured defect evidence for engineering assessment.

Training-Free Tunnel Defect Inspection and Engineering Interpretation via Visual Recalibration and Entity Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理