LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs

📄 arXiv: 2410.14182v3 📥 PDF

作者: Yujun Zhou, Jingdong Yang, Yue Huang, Kehan Guo, Zoe Emory, Bikram Ghosh, Amita Bedar, Sujay Shekar, Zhenwen Liang, Pin-Yu Chen, Tian Gao, Werner Geyer, Nuno Moniz, Nitesh V Chawla, Xiangliang Zhang

分类: cs.CL, cs.LG

发布日期: 2024-10-18 (更新: 2025-06-06)


💡 一句话要点

提出LabSafety Bench,评估LLM在科学实验室安全问题上的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实验室安全 大型语言模型 风险评估 基准测试 危害识别

📋 核心要点

  1. 现有LLM在实验室安全方面的应用存在“理解错觉”,可能导致研究人员过度依赖,从而引发安全事故。
  2. LabSafety Bench通过构建包含选择题和开放式问题的综合基准,评估LLM在实验室安全方面的危害识别和风险评估能力。
  3. 实验结果表明,现有LLM在实验室安全方面表现不足,尤其是在开放式场景中,专有模型与开源模型表现相当。

📝 摘要(中文)

人工智能正在革新科学研究,但其在实验室环境中的日益普及也带来了严峻的安全挑战。大型语言模型(LLM)越来越多地协助程序指导和自主实验编排等任务,但其“理解错觉”可能导致研究人员高估其可靠性。这种过度依赖在高风险实验室环境中尤其危险,因为在危害识别或风险评估方面的失败可能导致严重事故。为了解决这些问题,我们提出了实验室安全基准(LabSafety Bench),这是一个综合框架,用于评估大型语言模型和视觉语言模型(VLM)在识别潜在危害、评估风险和预测实验室环境中不安全行为后果的能力。LabSafety Bench包含765道与美国职业安全与健康管理局(OSHA)协议一致的选择题,以及404个真实的实验室场景,具有双重评估任务:危害识别测试和后果识别测试,总共有3128个开放式问题。对八个专有模型、七个开源LLM和四个VLM的评估表明,尽管在结构化评估中表现出色,但没有模型达到可靠运行所需的安全阈值——在危害识别测试中没有一个得分超过70%。此外,虽然专有模型在选择题评估中往往表现出色,但它们在开放式、真实场景响应中的表现与开源模型相当。这些发现强调了迫切需要专门的评估框架,以确保人工智能在实验室环境中的安全和负责任的部署。

🔬 方法详解

问题定义:论文旨在解决LLM在实验室安全应用中存在的可靠性问题。现有方法缺乏针对实验室安全场景的专门评估,导致研究人员难以准确评估LLM在识别潜在危害、评估风险和预测后果方面的能力。现有LLM的“理解错觉”可能导致过度依赖,从而在高风险实验室环境中引发安全事故。

核心思路:论文的核心思路是构建一个全面的实验室安全基准(LabSafety Bench),用于系统地评估LLM和VLM在实验室安全方面的能力。通过包含选择题和开放式问题的双重评估任务,全面考察模型在危害识别和后果预测方面的表现。这种设计旨在揭示模型在真实场景中的局限性,并为安全部署提供依据。

技术框架:LabSafety Bench包含以下主要组成部分: 1. 数据集构建:收集并整理与美国职业安全与健康管理局(OSHA)协议一致的实验室安全知识,构建包含765道选择题和404个真实实验室场景的数据集。 2. 评估任务设计:设计危害识别测试和后果识别测试两种评估任务,分别考察模型识别潜在危害和预测不安全行为后果的能力。 3. 模型评估:选择多个LLM和VLM进行评估,包括专有模型和开源模型,以比较不同模型的性能。 4. 性能分析:分析模型在不同评估任务中的表现,揭示模型的优势和不足,并提出改进建议。

关键创新:该论文的关键创新在于构建了一个专门针对实验室安全场景的综合评估基准LabSafety Bench。该基准不仅包含结构化的选择题,还包含更具挑战性的开放式问题,能够更全面地评估模型在真实场景中的表现。此外,该基准还涵盖了危害识别和后果预测两个关键的实验室安全任务,为评估模型的安全能力提供了更全面的视角。

关键设计:LabSafety Bench的关键设计包括: 1. 双重评估任务:危害识别测试和后果识别测试,分别考察模型在不同方面的安全能力。 2. 开放式问题:采用开放式问题来模拟真实场景,更准确地评估模型的理解和推理能力。 3. 多样化的模型选择:选择不同类型的LLM和VLM进行评估,以比较不同模型的性能。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,现有LLM在实验室安全方面表现不足,没有模型在危害识别测试中得分超过70%。专有模型在选择题评估中表现较好,但在开放式场景中的表现与开源模型相当。这些结果强调了需要专门的评估框架来确保AI在实验室环境中的安全部署。

🎯 应用场景

该研究成果可应用于实验室安全培训、AI辅助风险评估和安全协议生成等领域。通过LabSafety Bench,可以更准确地评估和选择适合实验室环境的AI模型,降低安全风险,提高实验室安全水平。未来,该研究可以扩展到其他高风险领域,如医疗、化工等。

📄 摘要(原文)

Artificial Intelligence (AI) is revolutionizing scientific research, yet its growing integration into laboratory environments presents critical safety challenges. While large language models (LLMs) increasingly assist in tasks ranging from procedural guidance to autonomous experiment orchestration, an "illusion of understanding" may lead researchers to overestimate their reliability. Such overreliance is particularly dangerous in high-stakes laboratory settings, where failures in hazard identification or risk assessment can result in severe accidents. To address these concerns, we propose the Laboratory Safety Benchmark (LabSafety Bench), a comprehensive framework that evaluates large language models and vision language models (VLMs) on their ability to identify potential hazards, assess risks, and predict the consequences of unsafe actions in lab environments. LabSafety Bench comprises 765 multiple-choice questions aligned with US Occupational Safety and Health Administration (OSHA) protocols, along with 404 realistic laboratory scenarios featuring dual evaluation tasks: the Hazards Identification Test and the Consequence Identification Test, with 3128 open-ended questions in total. Evaluations across eight proprietary models, seven open-weight LLMs, and four VLMs reveal that, despite advanced performance on structured assessments, no model achieves the safety threshold required for reliable operation -- none scoring above 70% on the Hazards Identification Test. Moreover, while proprietary models tend to excel in multiple-choice evaluations, their performance in open-ended, real-world scenario responses is comparable to that of open-source models. These findings underscore the urgent need for specialized evaluation frameworks to ensure the safe and responsible deployment of AI in laboratory settings.