Zero-Shot Multi-Criteria Visual Quality Inspection for Semi-Controlled Industrial Environments via Real-Time 3D Digital Twin Simulation

📄 arXiv: 2511.23214v1 📥 PDF

作者: Jose Moises Araya-Martinez, Gautham Mohan, Kenichi Hayakawa Bolaños, Roberto Mendieta, Sarvenaz Sardari, Jens Lambrecht, Jörg Krüger

分类: cs.CV

发布日期: 2025-11-28


💡 一句话要点

提出基于实时3D数字孪生仿真的零样本多标准视觉质量检测方法,用于半控制工业环境。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 视觉质量检测 数字孪生 工业自动化 RGB-D图像

📋 核心要点

  1. 现有视觉检测系统复杂且数据需求量大,难以在半控制工业环境中广泛应用,阻碍了零缺陷制造的实现。
  2. 提出一种基于实时数字孪生的零样本检测框架,通过对比真实场景与数字孪生,实现姿态无关的质量检测。
  3. 在汽车电机质量检测用例中,该框架取得了良好效果,IoU最高达到63.3%,验证了其在半控制环境下的有效性。

📝 摘要(中文)

本文提出了一种姿态无关的零样本质量检测框架,该框架通过在RGB-D空间中将真实场景与实时数字孪生(DT)进行比较,从而实现早期视觉质量检测,这对于实现零缺陷制造和最大限度地减少现代工业环境中的生产浪费至关重要。该方法通过对象检测和已知计算机辅助设计模型的姿态估计,对工业场景进行语义描述,从而实现高效的实时DT渲染。本文对用于实时、多模态RGB-D DT创建的工具进行了基准测试,同时跟踪了计算资源的消耗。此外,还提供了一种可扩展的分层注释策略,用于多标准缺陷检测,将姿态标记与逻辑和结构缺陷注释统一起来。基于汽车用例(轴向磁通电机质量检测),验证了该框架的有效性。结果表明,即使在半控制的工业条件下使用简单的距离测量,检测性能也能达到高达63.3%的交并比(IoU)。研究结果为未来在动态制造环境中推广通用、低数据缺陷检测方法奠定了基础。

🔬 方法详解

问题定义:论文旨在解决半控制工业环境中视觉质量检测系统部署困难的问题。现有方法通常需要大量标注数据进行训练,难以适应快速变化的生产线和新的产品类型。此外,传统方法对物体姿态敏感,鲁棒性较差。

核心思路:论文的核心思路是利用数字孪生技术,构建真实场景的实时3D模型,并将其与真实图像进行对比,从而实现零样本的缺陷检测。通过对象检测和姿态估计,将真实图像中的物体与数字孪生模型对齐,然后比较两者之间的差异,从而检测缺陷。

技术框架:该框架主要包含以下几个模块:1) 场景语义描述模块:利用对象检测和姿态估计技术,识别场景中的物体并估计其姿态。2) 实时数字孪生渲染模块:根据场景语义描述,实时渲染数字孪生模型。3) 缺陷检测模块:比较真实图像和数字孪生图像,检测两者之间的差异,从而识别缺陷。4) 多标准缺陷标注模块:采用可扩展的分层注释策略,统一姿态标记与逻辑和结构缺陷注释。

关键创新:该方法最大的创新在于实现了零样本的缺陷检测,无需大量标注数据进行训练。此外,该方法还具有姿态无关性,能够适应物体姿态的变化。通过实时数字孪生技术,能够快速适应新的产品类型和生产线。

关键设计:论文采用RGB-D数据进行场景重建和缺陷检测。在缺陷检测模块中,使用简单的距离测量方法来比较真实图像和数字孪生图像之间的差异。此外,论文还提出了一种可扩展的分层注释策略,用于多标准缺陷检测,将姿态标记与逻辑和结构缺陷注释统一起来。具体参数设置和网络结构等细节在论文中未详细描述,属于未来研究方向。

📊 实验亮点

实验结果表明,该框架在汽车轴向磁通电机的质量检测中取得了良好的效果,即使在半控制的工业条件下使用简单的距离测量,检测性能也能达到高达63.3%的交并比(IoU)。该结果验证了基于实时数字孪生的零样本缺陷检测方法的可行性和有效性。

🎯 应用场景

该研究成果可应用于各种工业制造场景,例如汽车、电子、机械等行业的产品质量检测。通过减少对大量标注数据的依赖,降低了视觉检测系统的部署成本,加速了智能化生产的进程。未来,该技术有望扩展到更复杂的动态制造环境中,实现更高效、更智能的质量控制。

📄 摘要(原文)

Early-stage visual quality inspection is vital for achieving Zero-Defect Manufacturing and minimizing production waste in modern industrial environments. However, the complexity of robust visual inspection systems and their extensive data requirements hinder widespread adoption in semi-controlled industrial settings. In this context, we propose a pose-agnostic, zero-shot quality inspection framework that compares real scenes against real-time Digital Twins (DT) in the RGB-D space. Our approach enables efficient real-time DT rendering by semantically describing industrial scenes through object detection and pose estimation of known Computer-Aided Design models. We benchmark tools for real-time, multimodal RGB-D DT creation while tracking consumption of computational resources. Additionally, we provide an extensible and hierarchical annotation strategy for multi-criteria defect detection, unifying pose labelling with logical and structural defect annotations. Based on an automotive use case featuring the quality inspection of an axial flux motor, we demonstrate the effectiveness of our framework. Our results demonstrate detection performace, achieving intersection-over-union (IoU) scores of up to 63.3% compared to ground-truth masks, even if using simple distance measurements under semi-controlled industrial conditions. Our findings lay the groundwork for future research on generalizable, low-data defect detection methods in dynamic manufacturing settings.