Autonomous Construction-Site Safety Inspection Using Mobile Robots: A Multilayer VLM-LLM Pipeline

📄 arXiv: 2512.13974v1 📥 PDF

作者: Hossein Naderi, Alireza Shojaei, Philip Agee, Kereshmeh Afsari, Abiola Akanmu

分类: cs.RO

发布日期: 2025-12-16


💡 一句话要点

提出基于多层VLM-LLM管道的移动机器人自主建筑工地安全巡检方案

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑安全巡检 移动机器人 视觉语言模型 大型语言模型 自主导航 SLAM 多模态融合

📋 核心要点

  1. 现有建筑安全检查主要依赖人工,自动化方法依赖特定任务数据集,难以适应快速变化的建筑环境。
  2. 提出一种多层VLM-LLM框架,利用移动机器人自主导航和AI分析,自动生成安全检查报告。
  3. 实验结果表明,该方法在模拟建筑工地场景中实现了较高的召回率和有竞争力的精确率,优于现有闭源模型。

📝 摘要(中文)

本文提出了一种利用移动机器人进行自主建筑工地安全巡检的多层框架。现有方法主要依赖于特定任务数据集,难以适应快速变化的建筑环境,且机器人现场巡检仍依赖人工遥操作和手动报告,劳动强度大。该框架结合了机器人和人工智能技术,通过SLAM和自主导航实现可重复的覆盖和目标重访。在AI方面,基于视觉语言模型(VLM)的层生成场景描述,检索组件根据OSHA和现场策略进行信息定位,另一个VLM层根据规则评估安全状况,最后,大型语言模型(LLM)层根据之前的输出生成安全报告。该框架通过概念验证实现进行了验证,并在模拟常见危险的实验室环境中进行了评估。结果表明,与最先进的闭源模型相比,该方法具有较高的召回率和有竞争力的精确率。该论文贡献了一个透明、可推广的管道,通过暴露每一层的中间结果并将人纳入循环,超越了黑盒模型。这项工作为未来在建筑环境内外扩展到其他任务和设置奠定了基础。

🔬 方法详解

问题定义:论文旨在解决建筑工地安全巡检自动化程度低的问题。现有方法依赖人工或特定任务数据集,无法有效应对建筑工地环境的动态变化,且机器人巡检仍需人工遥操作,效率低下。因此,需要一种能够自主导航、理解场景并自动生成安全报告的解决方案。

核心思路:论文的核心思路是将机器人自主导航与视觉语言模型(VLM)和大型语言模型(LLM)相结合,构建一个多层管道。机器人负责自主移动和感知环境,VLM负责理解场景并提取相关信息,LLM负责根据安全规则生成报告。这种模块化的设计使得系统更易于维护和扩展。

技术框架:该框架包含机器人和AI两个主要模块。机器人模块负责SLAM和自主导航,实现对建筑工地的可重复覆盖和目标重访。AI模块是一个多层管道,包括:1) VLM层:生成场景描述;2) 检索组件:根据OSHA和现场策略对场景描述进行信息定位;3) VLM层:基于规则评估安全状况;4) LLM层:根据前几层的输出生成安全报告。

关键创新:该论文的关键创新在于将VLM和LLM应用于建筑工地安全巡检,并构建了一个透明、可推广的多层管道。与传统的黑盒模型不同,该管道暴露了每一层的中间结果,方便用户进行干预和调试。此外,该方法不依赖于特定任务数据集,具有更好的泛化能力。

关键设计:论文中没有明确提及关键的参数设置、损失函数或网络结构等技术细节。但整体框架的设计思路是模块化和可解释性,每一层的功能相对独立,方便进行定制和优化。检索组件的设计需要考虑如何高效地从大量的OSHA和现场策略中检索相关信息。VLM和LLM的选择和微调也是关键的设计环节。

📊 实验亮点

实验结果表明,该方法在模拟建筑工地场景中实现了较高的召回率,并具有与最先进的闭源模型相竞争的精确率。这表明该方法在识别安全隐患方面具有较好的性能。此外,该方法的可解释性和可推广性也是其重要的优势。

🎯 应用场景

该研究成果可应用于建筑工地安全巡检,降低人工成本,提高巡检效率和准确性。此外,该方法还可以扩展到其他需要自主导航和场景理解的领域,如智能安防、灾害救援和工业自动化等。未来,该技术有望在更广泛的场景中发挥重要作用。

📄 摘要(原文)

Construction safety inspection remains mostly manual, and automated approaches still rely on task-specific datasets that are hard to maintain in fast-changing construction environments due to frequent retraining. Meanwhile, field inspection with robots still depends on human teleoperation and manual reporting, which are labor-intensive. This paper aims to connect what a robot sees during autonomous navigation to the safety rules that are common in construction sites, automatically generating a safety inspection report. To this end, we proposed a multi-layer framework with two main modules: robotics and AI. On the robotics side, SLAM and autonomous navigation provide repeatable coverage and targeted revisits via waypoints. On AI side, a Vision Language Model (VLM)-based layer produces scene descriptions; a retrieval component powered grounds those descriptions in OSHA and site policies; Another VLM-based layer assesses the safety situation based on rules; and finally Large Language Model (LLM) layer generates safety reports based on previous outputs. The framework is validated with a proof-of-concept implementation and evaluated in a lab environment that simulates common hazards across three scenarios. Results show high recall with competitive precision compared to state-of-the-art closed-source models. This paper contributes a transparent, generalizable pipeline that moves beyond black-box models by exposing intermediate artifacts from each layer and keeping the human in the loop. This work provides a foundation for future extensions to additional tasks and settings within and beyond construction context.