UniPCB: A Unified Vision-Language Benchmark for Open-Ended PCB Quality Inspection
作者: Fuxiang Sun, Xi Jiang, Jiansheng Wu, Haigang Zhang, Feng Zheng, Jinfeng Yang
分类: cs.CV, cs.AI
发布日期: 2026-01-27
💡 一句话要点
UniPCB:用于开放式PCB质量检测的统一视觉-语言基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: PCB检测 多模态学习 视觉-语言模型 质量检测 工业应用
📋 核心要点
- 现有多模态大语言模型在PCB检测等复杂工业场景中表现不足,缺乏统一的评估基准。
- UniPCB通过系统流程,整合并标准化多源数据,构建了首个开放式PCB质量检测的视觉-语言基准。
- PCB-GPT通过渐进式课程学习,在UniPCB基准测试中显著超越现有模型,尤其在缺陷定位方面。
📝 摘要(中文)
多模态大型语言模型(MLLM)在通用工业质量检测中展现出潜力,但在印刷电路板(PCB)检测等复杂场景中表现不足。PCB检测面临独特的挑战,例如元件密集、布线结构复杂以及需要专业领域知识的细微缺陷模式。然而,目前仍然缺乏高质量、统一的视觉-语言基准,用于定量评估MLLM在PCB检测任务中的性能,这不仅源于有限的数据可用性,还源于分散的数据集和不一致的标准化。为了填补这一空白,我们提出了UniPCB,这是第一个用于开放式PCB质量检测的统一视觉-语言基准。UniPCB通过系统的流程构建,该流程整理和标准化来自三个带注释场景的不同来源的数据。此外,我们引入了PCB-GPT,这是一个基于此流程生成的新指令数据集训练的MLLM,它利用了一种新颖的渐进式课程,模仿人类专家的学习过程。在UniPCB基准上的评估表明,虽然现有的MLLM在特定领域的任务中表现不佳,但PCB-GPT建立了一个新的基线。值得注意的是,与最强的竞争对手相比,它在细粒度缺陷定位方面的性能提高了一倍以上,在定位和分析方面具有显著优势。我们将发布指令数据、基准和模型,以促进未来的研究。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在PCB质量检测任务中缺乏统一评估基准的问题。现有方法难以应对PCB元件密集、布线复杂和缺陷细微等挑战,导致模型性能不佳,且缺乏标准化的数据集进行有效评估和比较。
核心思路:论文的核心思路是构建一个高质量、统一的视觉-语言基准UniPCB,并在此基础上训练一个专门针对PCB检测任务优化的多模态大语言模型PCB-GPT。通过标准化的数据和渐进式学习策略,提升模型在PCB检测任务中的性能。
技术框架:UniPCB的构建流程包括数据收集、数据清洗、数据标注和数据标准化等步骤,涵盖了三种不同的PCB检测场景。PCB-GPT的训练采用了一种渐进式课程学习策略,模拟人类专家学习过程,从简单到复杂逐步提升模型能力。整体流程包括数据预处理、指令数据生成、模型训练和评估等环节。
关键创新:论文的关键创新在于构建了首个统一的PCB视觉-语言基准UniPCB,并提出了基于渐进式课程学习的PCB-GPT模型。UniPCB的标准化数据和全面的评估指标,为后续研究提供了可靠的基础。PCB-GPT的渐进式学习策略,有效提升了模型在细粒度缺陷定位和分析方面的能力。
关键设计:UniPCB的数据标注包括缺陷类型、位置和描述等信息,采用统一的标注规范。PCB-GPT的模型结构基于现有的多模态大语言模型,并针对PCB检测任务进行了优化。渐进式课程学习策略包括多个阶段,每个阶段侧重于不同难度的任务,例如缺陷分类、定位和分析。损失函数采用交叉熵损失和回归损失的组合,以同时优化分类和定位性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PCB-GPT在UniPCB基准测试中显著超越了现有模型,尤其在细粒度缺陷定位方面,性能提升超过一倍。与最强的竞争对手相比,PCB-GPT在定位和分析方面具有显著优势,证明了UniPCB基准和渐进式学习策略的有效性。这些结果表明,专门针对PCB检测任务优化的多模态大语言模型具有巨大的潜力。
🎯 应用场景
该研究成果可应用于自动化PCB质量检测,提高生产效率和产品质量。通过UniPCB基准,可以促进多模态大语言模型在工业检测领域的应用,并推动相关算法的进一步发展。未来,该技术有望扩展到其他复杂工业产品的质量检测,例如芯片、电子设备等。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) show promise for general industrial quality inspection, but fall short in complex scenarios, such as Printed Circuit Board (PCB) inspection. PCB inspection poses unique challenges due to densely packed components, complex wiring structures, and subtle defect patterns that require specialized domain expertise. However, a high-quality, unified vision-language benchmark for quantitatively evaluating MLLMs across PCB inspection tasks remains absent, stemming not only from limited data availability but also from fragmented datasets and inconsistent standardization. To fill this gap, we propose UniPCB, the first unified vision-language benchmark for open-ended PCB quality inspection. UniPCB is built via a systematic pipeline that curates and standardizes data from disparate sources across three annotated scenarios. Furthermore, we introduce PCB-GPT, an MLLM trained on a new instruction dataset generated by this pipeline, utilizing a novel progressive curriculum that mimics the learning process of human experts. Evaluations on the UniPCB benchmark show that while existing MLLMs falter on domain-specific tasks, PCB-GPT establishes a new baseline. Notably, it more than doubles the performance on fine-grained defect localization compared to the strongest competitors, with significant advantages in localization and analysis. We will release the instruction data, benchmark, and model to facilitate future research.