Automating construction safety inspections using a multi-modal vision-language RAG framework

📄 arXiv: 2510.04145v1 📥 PDF

作者: Chenxin Wang, Elyas Asadi Shamsabadi, Zhaohui Chen, Luming Shen, Alireza Ahmadian Fard Fini, Daniel Dias-da-Costa

分类: cs.CV, cs.CL, cs.IR

发布日期: 2025-10-05

备注: 33 pages, 11 figures, 7 tables


💡 一句话要点

提出SiteShield,利用多模态RAG框架自动化建筑安全检查报告生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑安全 多模态学习 视觉语言模型 检索增强生成 自动化检查

📋 核心要点

  1. 传统建筑安全检查依赖人工,效率低且易出错,难以有效处理海量信息。
  2. SiteShield利用多模态LVLM和RAG框架,整合视觉和音频信息,提升信息检索和报告生成效率。
  3. 实验表明,SiteShield在真实数据上显著优于传统单模态LLM,各项指标均有提升。

📝 摘要(中文)

传统的建筑安全检查方法效率低下,需要处理大量信息。大型视觉语言模型(LVLMs)的最新进展为通过增强视觉和语言理解来自动化安全检查提供了机会。然而,现有的应用面临着不相关或不具体的响应、受限的模态输入和幻觉等局限性。为此目的使用大型语言模型(LLMs)受到训练数据可用性的限制,并且经常缺乏实时适应性。本研究介绍了一种基于多模态LVLM的检索增强生成(RAG)框架SiteShield,通过整合视觉和音频输入来自动化建筑安全检查报告。使用真实世界的数据,SiteShield优于没有RAG的单模态LLM,F1得分为0.82,汉明损失为0.04,精确率为0.76,召回率为0.96。研究结果表明,SiteShield为提高安全报告生成中的信息检索和效率提供了一种新途径。

🔬 方法详解

问题定义:论文旨在解决建筑安全检查报告生成效率低下的问题。现有方法依赖人工检查和记录,耗时费力,且容易遗漏关键信息。此外,现有的大型语言模型(LLM)在处理此类任务时,面临训练数据不足、实时适应性差以及容易产生幻觉等问题。

核心思路:论文的核心思路是利用多模态信息(视觉和音频)来增强LLM的理解能力,并结合检索增强生成(RAG)框架,从相关知识库中检索信息,从而提高报告生成的准确性和效率。通过融合多种模态的信息,模型可以更全面地理解现场情况,减少信息遗漏和误判。

技术框架:SiteShield框架主要包含以下几个模块:1) 多模态数据输入模块,负责接收视觉(图像、视频)和音频数据;2) 特征提取模块,利用预训练的视觉和音频模型提取特征;3) 检索模块,根据提取的特征从知识库中检索相关信息;4) LLM生成模块,利用检索到的信息和提取的特征生成安全检查报告。整个流程通过RAG框架进行优化,确保生成报告的准确性和相关性。

关键创新:该论文的关键创新在于将多模态信息(视觉和音频)与RAG框架相结合,用于建筑安全检查报告的自动生成。与传统的单模态LLM相比,SiteShield能够更全面地理解现场情况,并生成更准确、更详细的报告。此外,RAG框架的使用可以有效减少LLM的幻觉问题,提高报告的可信度。

关键设计:论文中使用的LLM可以是各种预训练的大型语言模型,例如GPT系列或LLaMA系列。知识库的构建需要根据具体的应用场景进行定制,可以包含建筑规范、安全标准、历史事故案例等信息。检索模块可以使用各种向量相似度搜索算法,例如余弦相似度或欧氏距离。损失函数的设计需要综合考虑报告的准确性、完整性和流畅性,可以使用交叉熵损失、BLEU得分等指标。

📊 实验亮点

SiteShield在真实世界数据集上进行了评估,实验结果表明,该方法在F1 score、精确率、召回率和汉明损失等指标上均优于没有RAG的单模态LLM。具体而言,SiteShield的F1 score达到了0.82,汉明损失为0.04,精确率为0.76,召回率为0.96,表明其在安全检查报告生成方面具有显著优势。

🎯 应用场景

SiteShield可应用于建筑工地的日常安全巡检、事故调查和风险评估等场景。通过自动化生成安全检查报告,可以显著提高工作效率,减少人为错误,并为安全管理提供更全面的数据支持。未来,该技术还可扩展到其他领域,如工业安全、交通安全等。

📄 摘要(原文)

Conventional construction safety inspection methods are often inefficient as they require navigating through large volume of information. Recent advances in large vision-language models (LVLMs) provide opportunities to automate safety inspections through enhanced visual and linguistic understanding. However, existing applications face limitations including irrelevant or unspecific responses, restricted modal inputs and hallucinations. Utilisation of Large Language Models (LLMs) for this purpose is constrained by availability of training data and frequently lack real-time adaptability. This study introduces SiteShield, a multi-modal LVLM-based Retrieval-Augmented Generation (RAG) framework for automating construction safety inspection reports by integrating visual and audio inputs. Using real-world data, SiteShield outperformed unimodal LLMs without RAG with an F1 score of 0.82, hamming loss of 0.04, precision of 0.76, and recall of 0.96. The findings indicate that SiteShield offers a novel pathway to enhance information retrieval and efficiency in generating safety reports.