Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering
作者: Farouq Sammour, Jia Xu, Xi Wang, Mo Hu, Zhenyu Zhang
分类: cs.AI
发布日期: 2024-11-13
备注: 29 pages, 5 figures
💡 一句话要点
评估大型语言模型在建筑安全领域的应用,并探索提示工程的优化策略
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 建筑安全 提示工程 安全管理 风险评估
📋 核心要点
- 建筑安全领域面临信息不准确和工人安全受损的风险,需要对LLM进行系统评估。
- 通过分析LLM在安全考试中的表现,揭示其优势与不足,并探索提示工程的影响。
- 实验结果表明,GPT-4o在BCSP考试中准确率达84.6%,但提示工程对性能有显著影响。
📝 摘要(中文)
建筑业仍然是最危险的行业之一。人工智能,特别是大型语言模型(LLMs)的最新进展,为提高工作场所安全提供了有希望的机会。然而,负责任地整合LLMs需要系统的评估,因为在不了解其能力和局限性的情况下部署它们,可能会产生不准确的信息,助长错误的信心,并损害工人安全。本研究评估了两种广泛使用的LLMs,GPT-3.5和GPT-4o,在由认证安全专业人员委员会(BCSP)管理的三项标准化考试中的表现。该研究使用涵盖七个安全知识领域的385个问题,分析了模型的准确性、一致性和可靠性。结果表明,两种模型始终超过BCSP基准,GPT-4o的准确率达到84.6%,GPT-3.5达到73.8%。两种模型在安全管理系统以及危险识别和控制方面表现出优势,但在科学、数学、应急响应和消防方面表现出劣势。误差分析确定了影响LLM性能的四个主要限制:缺乏知识、推理缺陷、记忆问题和计算错误。我们的研究还强调了提示工程策略的影响,GPT-3.5的准确率变化达到13.5%,GPT-4o的准确率变化达到7.9%。然而,没有一种提示配置被证明是普遍有效的。这项研究通过以下三种方式推进了知识:通过确定LLMs可以支持安全实践的领域以及人工监督仍然至关重要的领域,通过提供关于通过提示工程改进LLM实施的实用见解,以及通过为未来的研究和开发提供循证指导。这些贡献支持将人工智能负责任地整合到建筑安全管理中,以实现零伤害。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在建筑安全领域的应用潜力,并识别其局限性。现有方法缺乏对LLM在安全知识方面的系统性评估,可能导致在实际应用中产生误导性信息,从而威胁工人安全。因此,需要深入了解LLM在特定安全场景下的表现,以便负责任地部署这些技术。
核心思路:论文的核心思路是通过模拟安全专业人员的考试环境,系统地评估LLM在不同安全知识领域的表现。通过分析LLM的答题准确率、一致性和可靠性,识别其优势和不足,并探索提示工程对性能的影响。这种方法能够提供客观的评估结果,为LLM在建筑安全领域的应用提供指导。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集了来自认证安全专业人员委员会(BCSP)的三项标准化考试的385个问题,涵盖七个安全知识领域。2) 模型评估:使用GPT-3.5和GPT-4o两种LLM进行答题,并记录其答案。3) 结果分析:分析LLM的准确率、一致性和可靠性,并进行误差分析,识别LLM的局限性。4) 提示工程:探索不同的提示策略对LLM性能的影响。
关键创新:该研究的关键创新在于:1) 系统性评估:首次对LLM在建筑安全领域的知识掌握程度进行了系统性评估,填补了该领域的空白。2) 误差分析:通过误差分析,识别了LLM在安全知识方面的具体局限性,为改进LLM在安全领域的应用提供了方向。3) 提示工程探索:探索了提示工程对LLM性能的影响,为优化LLM在安全领域的应用提供了实用指导。
关键设计:研究的关键设计包括:1) 使用BCSP标准化考试题目作为评估基准,保证了评估的客观性和专业性。2) 涵盖七个安全知识领域,保证了评估的全面性。3) 采用多种提示策略,探索了提示工程对LLM性能的影响。4) 进行了详细的误差分析,识别了LLM的局限性。
📊 实验亮点
实验结果表明,GPT-4o在BCSP考试中取得了84.6%的准确率,GPT-3.5取得了73.8%的准确率,均超过了BCSP基准。研究还发现,提示工程对LLM的性能有显著影响,GPT-3.5的准确率变化高达13.5%,GPT-4o的变化为7.9%。这些结果表明,LLM在建筑安全领域具有应用潜力,但需要谨慎评估和优化。
🎯 应用场景
该研究成果可应用于建筑安全培训、风险评估、应急响应等领域。通过集成LLM,可以为安全专业人员提供更快速、更准确的信息支持,提高工作效率和安全性。未来,结合LLM的智能安全系统有望实现更主动、更智能的安全管理,从而降低事故发生率,保障工人生命安全。
📄 摘要(原文)
Construction remains one of the most hazardous sectors. Recent advancements in AI, particularly Large Language Models (LLMs), offer promising opportunities for enhancing workplace safety. However, responsible integration of LLMs requires systematic evaluation, as deploying them without understanding their capabilities and limitations risks generating inaccurate information, fostering misplaced confidence, and compromising worker safety. This study evaluates the performance of two widely used LLMs, GPT-3.5 and GPT-4o, across three standardized exams administered by the Board of Certified Safety Professionals (BCSP). Using 385 questions spanning seven safety knowledge areas, the study analyzes the models' accuracy, consistency, and reliability. Results show that both models consistently exceed the BCSP benchmark, with GPT-4o achieving an accuracy rate of 84.6% and GPT-3.5 reaching 73.8%. Both models demonstrate strengths in safety management systems and hazard identification and control, but exhibit weaknesses in science, mathematics, emergency response, and fire prevention. An error analysis identifies four primary limitations affecting LLM performance: lack of knowledge, reasoning flaws, memory issues, and calculation errors. Our study also highlights the impact of prompt engineering strategies, with variations in accuracy reaching 13.5% for GPT-3.5 and 7.9% for GPT-4o. However, no single prompt configuration proves universally effective. This research advances knowledge in three ways: by identifying areas where LLMs can support safety practices and where human oversight remains essential, by offering practical insights into improving LLM implementation through prompt engineering, and by providing evidence-based direction for future research and development. These contributions support the responsible integration of AI in construction safety management toward achieving zero injuries.