InspecSafe-V1: A Multimodal Benchmark for Safety Assessment in Industrial Inspection Scenarios

📄 arXiv: 2601.21173v1 📥 PDF

作者: Zeyi Liu, Shuang Liu, Jihai Min, Zhaoheng Zhang, Jun Cen, Pengyu Han, Songqiao Hu, Zihan Meng, Xiao He, Donghua Zhou

分类: cs.RO, cs.CV

发布日期: 2026-01-29

备注: 15 pages, 7 figures


💡 一句话要点

InspecSafe-V1:用于工业巡检场景安全评估的多模态基准数据集

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业巡检 安全评估 多模态数据集 机器人 异常检测

📋 核心要点

  1. 现有工业巡检数据集在数据来源、模态丰富度和标注细粒度方面存在局限性,难以支持鲁棒的场景理解和多模态安全推理。
  2. InspecSafe-V1 旨在提供一个真实、多模态、细粒度标注的工业巡检数据集,以促进工业基础模型在安全评估方面的研究。
  3. 该数据集包含五个工业场景、七种模态数据和像素级分割标注,为多模态异常识别和跨模态融合提供了丰富的数据基础。

📝 摘要(中文)

随着工业智能化和无人巡检的快速发展,复杂动态工业环境中AI系统的可靠感知和安全评估已成为部署预测性维护和自主巡检的关键瓶颈。现有公开数据集受限于模拟数据源、单模态感知或缺乏细粒度的对象级标注,阻碍了工业基础模型的鲁棒场景理解和多模态安全推理。为了解决这些限制,InspecSafe-V1作为首个用于工业巡检安全评估的多模态基准数据集发布,该数据集从真实环境中实际巡检机器人的日常操作中收集。InspecSafe-V1涵盖五个代表性的工业场景,包括隧道、电力设施、烧结设备、油气石化工厂和煤炭输送栈桥。该数据集由在2,239个有效巡检地点运行的41个轮式和轨道式巡检机器人构建,产生5,013个巡检实例。对于每个实例,都提供了可见光谱图像中关键对象的像素级分割标注。此外,还根据实际巡检任务提供了语义场景描述和相应的安全等级标签。进一步包括七种同步感知模态,包括红外视频、音频、深度点云、雷达点云、气体测量、温度和湿度,以支持工业环境中的多模态异常识别、跨模态融合和综合安全评估。

🔬 方法详解

问题定义:现有工业巡检数据集通常依赖于模拟数据或仅包含单一模态信息,缺乏真实场景下的多模态数据和细粒度的对象级标注。这限制了模型在复杂工业环境中进行鲁棒的场景理解和安全评估的能力,难以满足实际应用的需求。

核心思路:InspecSafe-V1的核心思路是构建一个真实、多模态、细粒度标注的工业巡检数据集,以促进工业基础模型在安全评估方面的研究。通过收集真实巡检机器人在实际工业环境中的数据,并提供像素级分割标注、语义场景描述和安全等级标签,为多模态异常识别和跨模态融合提供数据基础。

技术框架:InspecSafe-V1数据集的构建流程主要包括以下几个阶段:1) 数据采集:使用41个轮式和轨道式巡检机器人在2,239个有效巡检地点采集数据。2) 数据标注:对可见光谱图像中的关键对象进行像素级分割标注,并根据实际巡检任务提供语义场景描述和安全等级标签。3) 多模态数据同步:同步采集七种感知模态数据,包括红外视频、音频、深度点云、雷达点云、气体测量、温度和湿度。4) 数据集整理:将采集和标注的数据整理成统一的格式,并进行质量控制。

关键创新:InspecSafe-V1的关键创新在于其真实性、多模态性和细粒度标注。与现有数据集相比,InspecSafe-V1的数据来源于真实工业环境,包含七种同步感知模态,并提供像素级分割标注,能够更好地支持工业基础模型在安全评估方面的研究。

关键设计:InspecSafe-V1的关键设计包括:1) 选择具有代表性的工业场景,如隧道、电力设施等。2) 使用多种类型的巡检机器人进行数据采集,以增加数据的多样性。3) 提供像素级分割标注,以便进行细粒度的对象识别和安全评估。4) 同步采集多种感知模态数据,以支持多模态异常识别和跨模态融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InspecSafe-V1数据集包含5,013个巡检实例,覆盖五个代表性的工业场景,并提供七种同步感知模态数据。每个实例都包含像素级分割标注、语义场景描述和安全等级标签。该数据集为多模态异常识别、跨模态融合和综合安全评估提供了丰富的数据基础,有望推动工业巡检领域的研究进展。

🎯 应用场景

InspecSafe-V1数据集可广泛应用于工业巡检、预测性维护和安全评估等领域。通过利用该数据集训练的模型,可以提高工业机器人在复杂环境中的感知能力和安全意识,从而实现更高效、更安全的自主巡检。此外,该数据集还可以促进多模态融合、异常检测等相关技术的发展,为工业智能化提供有力支撑。

📄 摘要(原文)

With the rapid development of industrial intelligence and unmanned inspection, reliable perception and safety assessment for AI systems in complex and dynamic industrial sites has become a key bottleneck for deploying predictive maintenance and autonomous inspection. Most public datasets remain limited by simulated data sources, single-modality sensing, or the absence of fine-grained object-level annotations, which prevents robust scene understanding and multimodal safety reasoning for industrial foundation models. To address these limitations, InspecSafe-V1 is released as the first multimodal benchmark dataset for industrial inspection safety assessment that is collected from routine operations of real inspection robots in real-world environments. InspecSafe-V1 covers five representative industrial scenarios, including tunnels, power facilities, sintering equipment, oil and gas petrochemical plants, and coal conveyor trestles. The dataset is constructed from 41 wheeled and rail-mounted inspection robots operating at 2,239 valid inspection sites, yielding 5,013 inspection instances. For each instance, pixel-level segmentation annotations are provided for key objects in visible-spectrum images. In addition, a semantic scene description and a corresponding safety level label are provided according to practical inspection tasks. Seven synchronized sensing modalities are further included, including infrared video, audio, depth point clouds, radar point clouds, gas measurements, temperature, and humidity, to support multimodal anomaly recognition, cross-modal fusion, and comprehensive safety assessment in industrial environments.