A Multimodal Manufacturing Safety Chatbot: Knowledge Base Design, Benchmark Development, and Evaluation of Multiple RAG Approaches

作者: Ryan Singh, Austin Hamilton, Amanda White, Michael Wise, Ibrahim Yousif, Arthur Carvalho, Zhe Shan, Reza Abrisham Baf, Mohammad Mayyas, Lora A. Cavuoto, Fadel M. Megahed

分类: cs.IR, cs.AI, cs.CY

发布日期: 2025-11-14

备注: 25 pages, 5 figures

💡 一句话要点

提出多模态安全聊天机器人，结合RAG提升制造业安全培训，并构建基准进行评估。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态聊天机器人 安全培训 检索增强生成 大型语言模型 工业5.0

📋 核心要点

现有制造业安全培训方法在准确性、延迟和成本方面存在不足，难以满足工业5.0对人机协作的新要求。
论文提出一种基于大型语言模型的多模态聊天机器人，利用检索增强生成（RAG）技术，从专业文档中获取知识，提升响应的准确性。
实验结果表明，该聊天机器人在准确性、延迟和成本方面表现出色，最佳配置准确率达86.66%，延迟10.04秒，成本0.005美元/查询。

📝 摘要（中文）

在现代制造业环境中，确保工人安全仍然是一项关键挑战。工业5.0将制造业范式重新定位为更以人为本的运营。本文采用设计科学研究方法，确定了下一代安全培训系统的三个基本要求：高准确性、低延迟和低成本。我们介绍了一种由大型语言模型驱动的多模态聊天机器人，它满足这些设计要求。该聊天机器人使用检索增强生成（RAG）来将其响应建立在精选的监管和技术文档之上。为了评估我们的解决方案，我们为三种具有代表性的机器开发了一个特定领域的基准，包括Bridgeport手动铣床、Haas TL-1 CNC车床和Universal Robots UR5e协作机器人。我们使用全因子设计测试了24种RAG配置，并使用正确性、延迟和成本的自动评估对其进行了评估。排名前2位的配置随后由十位行业专家和学术研究人员进行了评估。结果表明，检索策略和模型配置对性能有显着影响。最佳配置（选择用于聊天机器人部署）的准确度为86.66％，平均延迟为10.04秒，每次查询的平均成本为0.005美元。总的来说，我们的工作提供了三个贡献：一个开源的、基于领域知识的安全培训聊天机器人；一个经过验证的基准，用于评估人工智能辅助的安全指导；以及一种系统的方法，用于设计和评估用于工业5.0环境的、支持人工智能的教学和沉浸式安全培训系统。

🔬 方法详解

问题定义：制造业安全培训需要高准确性、低延迟和低成本的解决方案。现有方法难以同时满足这些要求，尤其是在工业5.0背景下，人机协作日益频繁，对安全培训提出了更高挑战。现有方法可能依赖于过时的培训材料，或者无法快速响应工人的实时问题，导致安全风险。

核心思路：利用大型语言模型（LLM）的强大生成能力，结合检索增强生成（RAG）技术，构建一个多模态安全聊天机器人。RAG通过检索相关文档来增强LLM的知识，使其能够提供更准确、更可靠的答案。这种方法旨在降低LLM的幻觉问题，并确保答案基于权威的安全规范和技术文档。

技术框架：该聊天机器人的整体架构包含以下几个主要模块：1) 问题输入模块：接收用户的文本或语音问题。2) 检索模块：根据用户问题，从预先构建的知识库中检索相关的安全文档。知识库包含监管文件、技术手册等。3) 生成模块：利用大型语言模型（LLM），结合检索到的文档，生成针对用户问题的答案。4) 输出模块：将生成的答案以文本或语音形式呈现给用户。

关键创新：该方法的关键创新在于将RAG技术应用于制造业安全培训领域，并构建了一个特定领域的专家验证的基准数据集。通过RAG，聊天机器人能够基于权威的安全文档生成答案，从而提高准确性和可靠性。此外，该研究还系统地评估了不同RAG配置对性能的影响，为实际部署提供了指导。

关键设计：该研究采用了全因子设计，测试了24种不同的RAG配置，包括不同的检索策略（例如，基于关键词的检索、基于语义的检索）和不同的LLM模型。评估指标包括准确性、延迟和成本。准确性通过专家验证的问答对进行评估。延迟是指生成答案所需的时间。成本是指使用LLM API的费用。最佳配置的选择基于这些指标的综合考虑。

🖼️ 关键图片

📊 实验亮点

实验结果表明，最佳RAG配置的聊天机器人达到了86.66%的准确率，平均响应延迟为10.04秒，每次查询的平均成本仅为0.005美元。该配置在准确性、延迟和成本之间取得了良好的平衡。此外，专家评估也表明，该聊天机器人能够提供高质量的安全指导。

🎯 应用场景

该研究成果可应用于各种制造业场景，为工人提供实时的安全指导和培训。通过聊天机器人，工人可以随时随地获取所需的安全知识，从而降低事故风险，提高生产效率。此外，该方法还可以扩展到其他领域，例如医疗、建筑等，为专业人员提供基于知识库的智能助手。

📄 摘要（原文）

Ensuring worker safety remains a critical challenge in modern manufacturing environments. Industry 5.0 reorients the prevailing manufacturing paradigm toward more human-centric operations. Using a design science research methodology, we identify three essential requirements for next-generation safety training systems: high accuracy, low latency, and low cost. We introduce a multimodal chatbot powered by large language models that meets these design requirements. The chatbot uses retrieval-augmented generation to ground its responses in curated regulatory and technical documentation. To evaluate our solution, we developed a domain-specific benchmark of expert-validated question and answer pairs for three representative machines: a Bridgeport manual mill, a Haas TL-1 CNC lathe, and a Universal Robots UR5e collaborative robot. We tested 24 RAG configurations using a full-factorial design and assessed them with automated evaluations of correctness, latency, and cost. Our top 2 configurations were then evaluated by ten industry experts and academic researchers. Our results show that retrieval strategy and model configuration have a significant impact on performance. The top configuration (selected for chatbot deployment) achieved an accuracy of 86.66%, an average latency of 10.04 seconds, and an average cost of $0.005 per query. Overall, our work provides three contributions: an open-source, domain-grounded safety training chatbot; a validated benchmark for evaluating AI-assisted safety instruction; and a systematic methodology for designing and assessing AI-enabled instructional and immersive safety training systems for Industry 5.0 environments.

A Multimodal Manufacturing Safety Chatbot: Knowledge Base Design, Benchmark Development, and Evaluation of Multiple RAG Approaches

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理