SDIGLM: Leveraging Large Language Models and Multi-Modal Chain of Thought for Structural Damage Identification

📄 arXiv: 2504.11477v1 📥 PDF

作者: Yunkai Zhang, Shiyin Wei, Yong Huang, Yawu Su, Shanshan Lu, Hui Li

分类: cs.CV, cs.AI

发布日期: 2025-04-12


💡 一句话要点

SDIGLM:利用大型语言模型和多模态思维链进行结构损伤识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结构损伤识别 多模态学习 大型语言模型 思维链 语义分割

📋 核心要点

  1. 现有基于计算机视觉的损伤识别模型在复杂场景下泛化能力弱,且缺乏自然语言描述能力。
  2. SDIGLM利用VisualGLM-6B,结合U-Net语义分割和多轮对话微调,实现多模态思维链。
  3. SDIGLM在结构损伤识别中达到95.24%的准确率,并能有效描述损伤特征,优于通用LMM。

📝 摘要(中文)

现有的基于计算机视觉的结构损伤识别模型在损伤分类和定位方面表现出显著的准确性。然而,这些模型存在一些关键限制,阻碍了它们在土木工程中的实际应用。首先,它们识别损伤类型的能力有限,无法全面分析现实世界土木工程结构中遇到的高度多样和复杂的情况。其次,这些模型缺乏语言能力,无法通过自然语言描述结构损伤特征。随着人工智能的不断发展,大型多模态模型已成为一种变革性的解决方案,能够统一编码和对齐文本和视觉数据。这些模型可以自主生成结构损伤的详细描述性叙述,同时在各种场景和任务中表现出强大的泛化能力。本研究介绍了一种创新的用于结构损伤识别的LMM,名为SDIGLM,它基于开源的VisualGLM-6B架构开发。为了解决LMM适应土木工程中复杂多变运行条件的挑战,该工作集成了一个基于U-Net的语义分割模块,以生成缺陷分割图作为视觉思维链。此外,构建了一个多轮对话微调数据集,以增强逻辑推理能力,并辅以通过提示工程形成的语言思维链。通过利用这种多模态思维链,SDIGLM在结构损伤识别方面超越了通用LMM,在各种基础设施类型中实现了95.24%的准确率。此外,该模型有效地描述了诸如孔洞大小、裂缝方向和腐蚀程度等损伤特征。

🔬 方法详解

问题定义:现有基于计算机视觉的结构损伤识别模型虽然在特定场景下表现良好,但其泛化能力不足,难以应对土木工程中复杂多变的实际情况。此外,这些模型缺乏语言能力,无法提供对损伤特征的自然语言描述,限制了其在实际工程中的应用价值。

核心思路:SDIGLM的核心思路是利用大型多模态模型(LMM)的强大能力,将视觉信息和文本信息进行统一编码和对齐,从而实现对结构损伤的准确识别和自然语言描述。通过引入视觉和语言的思维链(CoT),增强模型的推理能力和泛化能力。

技术框架:SDIGLM的整体架构基于VisualGLM-6B,并在此基础上进行了改进。主要包含以下模块:1) U-Net语义分割模块:用于生成缺陷分割图,作为视觉思维链;2) 多轮对话微调数据集:用于增强模型的逻辑推理能力;3) 提示工程:用于形成语言思维链。模型首先通过U-Net对输入图像进行语义分割,生成缺陷分割图。然后,结合文本提示,利用VisualGLM-6B进行多模态推理,生成对结构损伤的描述。

关键创新:SDIGLM的关键创新在于引入了多模态思维链(CoT),包括视觉CoT和语言CoT。视觉CoT通过U-Net生成的缺陷分割图来引导模型关注图像中的关键区域。语言CoT通过提示工程和多轮对话微调来增强模型的逻辑推理能力。这种多模态CoT使得SDIGLM能够更准确地识别和描述结构损伤。

关键设计:U-Net采用标准的U-Net结构,损失函数为交叉熵损失函数。多轮对话微调数据集包含多种结构损伤场景和相应的对话,用于训练模型的推理能力。提示工程采用精心设计的提示模板,引导模型生成清晰、准确的损伤描述。

📊 实验亮点

SDIGLM在结构损伤识别任务中取得了显著的成果,在各种基础设施类型中实现了95.24%的准确率,超越了通用LMM。此外,该模型能够有效地描述损伤特征,如孔洞大小、裂缝方向和腐蚀程度,为结构健康监测提供了更全面的信息。实验结果表明,多模态思维链(CoT)是提高模型性能的关键。

🎯 应用场景

SDIGLM可应用于桥梁、建筑物、隧道等基础设施的自动化损伤检测与评估。通过提供准确的损伤识别和自然语言描述,该模型能够辅助工程师进行快速、高效的结构健康监测,降低维护成本,提高基础设施的安全性。未来,该模型可集成到无人机巡检系统中,实现全自动化的结构损伤检测。

📄 摘要(原文)

Existing computer vision(CV)-based structural damage identification models demonstrate notable accuracy in categorizing and localizing damage. However, these models present several critical limitations that hinder their practical application in civil engineering(CE). Primarily, their ability to recognize damage types remains constrained, preventing comprehensive analysis of the highly varied and complex conditions encountered in real-world CE structures. Second, these models lack linguistic capabilities, rendering them unable to articulate structural damage characteristics through natural language descriptions. With the continuous advancement of artificial intelligence(AI), large multi-modal models(LMMs) have emerged as a transformative solution, enabling the unified encoding and alignment of textual and visual data. These models can autonomously generate detailed descriptive narratives of structural damage while demonstrating robust generalization across diverse scenarios and tasks. This study introduces SDIGLM, an innovative LMM for structural damage identification, developed based on the open-source VisualGLM-6B architecture. To address the challenge of adapting LMMs to the intricate and varied operating conditions in CE, this work integrates a U-Net-based semantic segmentation module to generate defect segmentation maps as visual Chain of Thought(CoT). Additionally, a multi-round dialogue fine-tuning dataset is constructed to enhance logical reasoning, complemented by a language CoT formed through prompt engineering. By leveraging this multi-modal CoT, SDIGLM surpasses general-purpose LMMs in structural damage identification, achieving an accuracy of 95.24% across various infrastructure types. Moreover, the model effectively describes damage characteristics such as hole size, crack direction, and corrosion severity.