A Multimodal Manufacturing Safety Chatbot: Knowledge Base Design, Benchmark Development, and Evaluation of Multiple RAG Approaches

📄 arXiv: 2511.11847v1 📥 PDF

作者: Ryan Singh, Austin Hamilton, Amanda White, Michael Wise, Ibrahim Yousif, Arthur Carvalho, Zhe Shan, Reza Abrisham Baf, Mohammad Mayyas, Lora A. Cavuoto, Fadel M. Megahed

分类: cs.IR, cs.AI, cs.CY

发布日期: 2025-11-14

备注: 25 pages, 5 figures


💡 一句话要点

提出多模态安全聊天机器人,结合RAG提升制造业安全培训,并构建基准进行评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态聊天机器人 安全培训 检索增强生成 大型语言模型 工业5.0

📋 核心要点

  1. 现有制造业安全培训方法在准确性、延迟和成本方面存在不足,难以满足工业5.0对人机协作的新要求。
  2. 论文提出一种基于大型语言模型的多模态聊天机器人,利用检索增强生成(RAG)技术,从专业文档中获取知识,提升响应的准确性。
  3. 实验结果表明,该聊天机器人在准确性、延迟和成本方面表现出色,最佳配置准确率达86.66%,延迟10.04秒,成本0.005美元/查询。

📝 摘要(中文)

在现代制造业环境中,确保工人安全仍然是一项关键挑战。工业5.0将制造业范式重新定位为更以人为本的运营。本文采用设计科学研究方法,确定了下一代安全培训系统的三个基本要求:高准确性、低延迟和低成本。我们介绍了一种由大型语言模型驱动的多模态聊天机器人,它满足这些设计要求。该聊天机器人使用检索增强生成(RAG)来将其响应建立在精选的监管和技术文档之上。为了评估我们的解决方案,我们为三种具有代表性的机器开发了一个特定领域的基准,包括Bridgeport手动铣床、Haas TL-1 CNC车床和Universal Robots UR5e协作机器人。我们使用全因子设计测试了24种RAG配置,并使用正确性、延迟和成本的自动评估对其进行了评估。排名前2位的配置随后由十位行业专家和学术研究人员进行了评估。结果表明,检索策略和模型配置对性能有显着影响。最佳配置(选择用于聊天机器人部署)的准确度为86.66%,平均延迟为10.04秒,每次查询的平均成本为0.005美元。总的来说,我们的工作提供了三个贡献:一个开源的、基于领域知识的安全培训聊天机器人;一个经过验证的基准,用于评估人工智能辅助的安全指导;以及一种系统的方法,用于设计和评估用于工业5.0环境的、支持人工智能的教学和沉浸式安全培训系统。

🔬 方法详解

问题定义:制造业安全培训需要高准确性、低延迟和低成本的解决方案。现有方法难以同时满足这些要求,尤其是在工业5.0背景下,人机协作日益频繁,对安全培训提出了更高挑战。现有方法可能依赖于过时的培训材料,或者无法快速响应工人的实时问题,导致安全风险。

核心思路:利用大型语言模型(LLM)的强大生成能力,结合检索增强生成(RAG)技术,构建一个多模态安全聊天机器人。RAG通过检索相关文档来增强LLM的知识,使其能够提供更准确、更可靠的答案。这种方法旨在降低LLM的幻觉问题,并确保答案基于权威的安全规范和技术文档。

技术框架:该聊天机器人的整体架构包含以下几个主要模块:1) 问题输入模块:接收用户的文本或语音问题。2) 检索模块:根据用户问题,从预先构建的知识库中检索相关的安全文档。知识库包含监管文件、技术手册等。3) 生成模块:利用大型语言模型(LLM),结合检索到的文档,生成针对用户问题的答案。4) 输出模块:将生成的答案以文本或语音形式呈现给用户。

关键创新:该方法的关键创新在于将RAG技术应用于制造业安全培训领域,并构建了一个特定领域的专家验证的基准数据集。通过RAG,聊天机器人能够基于权威的安全文档生成答案,从而提高准确性和可靠性。此外,该研究还系统地评估了不同RAG配置对性能的影响,为实际部署提供了指导。

关键设计:该研究采用了全因子设计,测试了24种不同的RAG配置,包括不同的检索策略(例如,基于关键词的检索、基于语义的检索)和不同的LLM模型。评估指标包括准确性、延迟和成本。准确性通过专家验证的问答对进行评估。延迟是指生成答案所需的时间。成本是指使用LLM API的费用。最佳配置的选择基于这些指标的综合考虑。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,最佳RAG配置的聊天机器人达到了86.66%的准确率,平均响应延迟为10.04秒,每次查询的平均成本仅为0.005美元。该配置在准确性、延迟和成本之间取得了良好的平衡。此外,专家评估也表明,该聊天机器人能够提供高质量的安全指导。

🎯 应用场景

该研究成果可应用于各种制造业场景,为工人提供实时的安全指导和培训。通过聊天机器人,工人可以随时随地获取所需的安全知识,从而降低事故风险,提高生产效率。此外,该方法还可以扩展到其他领域,例如医疗、建筑等,为专业人员提供基于知识库的智能助手。

📄 摘要(原文)

Ensuring worker safety remains a critical challenge in modern manufacturing environments. Industry 5.0 reorients the prevailing manufacturing paradigm toward more human-centric operations. Using a design science research methodology, we identify three essential requirements for next-generation safety training systems: high accuracy, low latency, and low cost. We introduce a multimodal chatbot powered by large language models that meets these design requirements. The chatbot uses retrieval-augmented generation to ground its responses in curated regulatory and technical documentation. To evaluate our solution, we developed a domain-specific benchmark of expert-validated question and answer pairs for three representative machines: a Bridgeport manual mill, a Haas TL-1 CNC lathe, and a Universal Robots UR5e collaborative robot. We tested 24 RAG configurations using a full-factorial design and assessed them with automated evaluations of correctness, latency, and cost. Our top 2 configurations were then evaluated by ten industry experts and academic researchers. Our results show that retrieval strategy and model configuration have a significant impact on performance. The top configuration (selected for chatbot deployment) achieved an accuracy of 86.66%, an average latency of 10.04 seconds, and an average cost of $0.005 per query. Overall, our work provides three contributions: an open-source, domain-grounded safety training chatbot; a validated benchmark for evaluating AI-assisted safety instruction; and a systematic methodology for designing and assessing AI-enabled instructional and immersive safety training systems for Industry 5.0 environments.