Using Vision Language Models for Safety Hazard Identification in Construction
作者: Muhammad Adil, Gaang Lee, Vicente A. Gonzalez, Qipei Mei
分类: cs.CV
发布日期: 2025-04-12
💡 一句话要点
提出基于视觉语言模型的建筑工地安全隐患识别框架,提升情境感知能力。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 视觉语言模型 安全隐患识别 建筑工地安全 提示工程 情境感知 计算机视觉
📋 核心要点
- 现有方法难以识别建筑工地特定情境下的安全隐患,缺乏对空间关系和交互的理解,泛化能力受限。
- 提出基于视觉语言模型的框架,利用提示工程将安全指南融入上下文查询,提升模型的情境感知能力。
- 实验表明GPT-4o和Gemini 1.5 Pro表现优异,BERTScore分别达到0.906和0.888,但处理时间仍是挑战。
📝 摘要(中文)
安全隐患识别和预防是主动安全管理的关键要素。以往研究广泛探索了计算机视觉在建筑工地图像中自动识别隐患的应用。然而,这些方法难以识别特定情境下的隐患,因为它们侧重于检测预定义的个体实体,而忽略了它们之间的空间关系和交互。此外,它们对不同建筑工地指南和条件的适应性有限,阻碍了其在不同项目中的泛化能力。这些局限性降低了它们在复杂建筑环境中评估隐患以及适应未知风险的能力,导致潜在的安全漏洞。为了解决这些挑战,我们提出并实验验证了一个基于视觉语言模型(VLM)的建筑隐患识别框架。该框架包含一个提示工程模块,该模块将安全指南构建为上下文查询,使VLM能够处理视觉信息并生成符合法规指南的隐患评估。在该框架内,我们评估了最先进的VLM,包括GPT-4o、Gemini、Llama 3.2和InternVL2,使用包含1100张建筑工地图像的自定义数据集。实验结果表明,GPT-4o和Gemini 1.5 Pro优于其他模型,并分别显示出0.906和0.888的BERTScore,突显了它们识别一般和特定情境隐患的能力。然而,处理时间仍然是一个重大挑战,影响了实时可行性。这些发现为VLM在建筑工地隐患检测中的实际部署提供了见解,从而有助于加强主动安全管理。
🔬 方法详解
问题定义:论文旨在解决建筑工地安全隐患识别中,现有计算机视觉方法无法有效识别情境相关隐患的问题。现有方法主要依赖于预定义对象的检测,忽略了对象间的空间关系和交互作用,导致在复杂场景下的识别能力不足,且难以适应不同工地的安全规范。
核心思路:论文的核心思路是利用视觉语言模型(VLM)强大的情境理解和推理能力,通过提示工程(Prompt Engineering)将安全规范融入到模型的输入中,引导模型关注与安全相关的上下文信息,从而更准确地识别隐患。
技术框架:该框架主要包含两个核心模块:图像输入模块和提示工程模块。首先,将建筑工地的图像输入到VLM中。然后,提示工程模块将相关的安全指南转化为自然语言描述,作为VLM的上下文提示。VLM结合图像信息和提示信息,生成对图像中潜在安全隐患的评估报告。整体流程是:图像输入 -> 提示工程 -> VLM处理 -> 隐患评估报告输出。
关键创新:该论文的关键创新在于将视觉语言模型应用于建筑工地安全隐患识别,并引入了提示工程模块,使得模型能够更好地理解安全规范,并将其应用于图像分析中。这与传统方法仅依赖于预定义对象检测有本质区别,提升了模型的情境感知能力和泛化能力。
关键设计:提示工程是关键设计之一,论文需要设计有效的提示语,将安全规范以自然语言的形式表达,并融入到VLM的输入中。此外,选择合适的VLM模型(如GPT-4o, Gemini等)也至关重要,需要根据模型的性能和计算资源进行权衡。数据集的构建也需要考虑多样性和代表性,以保证模型的泛化能力。
📊 实验亮点
实验结果表明,GPT-4o和Gemini 1.5 Pro在建筑工地安全隐患识别任务中表现出色,BERTScore分别达到0.906和0.888,显著优于Llama 3.2和InternVL2。这表明VLM在理解复杂场景和识别情境相关隐患方面具有巨大潜力。然而,论文也指出,VLM的处理时间仍然是一个挑战,需要进一步优化以满足实时应用的需求。
🎯 应用场景
该研究成果可应用于建筑工地的实时安全监控,辅助安全员进行隐患排查,降低事故发生率。未来可集成到智能安全帽、无人机巡检等设备中,实现自动化安全巡检。此外,该方法也可推广到其他行业的安全监控,如矿业、制造业等。
📄 摘要(原文)
Safety hazard identification and prevention are the key elements of proactive safety management. Previous research has extensively explored the applications of computer vision to automatically identify hazards from image clips collected from construction sites. However, these methods struggle to identify context-specific hazards, as they focus on detecting predefined individual entities without understanding their spatial relationships and interactions. Furthermore, their limited adaptability to varying construction site guidelines and conditions hinders their generalization across different projects. These limitations reduce their ability to assess hazards in complex construction environments and adaptability to unseen risks, leading to potential safety gaps. To address these challenges, we proposed and experimentally validated a Vision Language Model (VLM)-based framework for the identification of construction hazards. The framework incorporates a prompt engineering module that structures safety guidelines into contextual queries, allowing VLM to process visual information and generate hazard assessments aligned with the regulation guide. Within this framework, we evaluated state-of-the-art VLMs, including GPT-4o, Gemini, Llama 3.2, and InternVL2, using a custom dataset of 1100 construction site images. Experimental results show that GPT-4o and Gemini 1.5 Pro outperformed alternatives and displayed promising BERTScore of 0.906 and 0.888 respectively, highlighting their ability to identify both general and context-specific hazards. However, processing times remain a significant challenge, impacting real-time feasibility. These findings offer insights into the practical deployment of VLMs for construction site hazard detection, thereby contributing to the enhancement of proactive safety management.