A Large Language Model Powered Integrated Circuit Footprint Geometry Understanding
作者: Yida Wang, Taiting Lu, Runze Liu, Lanqing Yang, Yifan Yang, Zhe Chen, Yuehai Wang, Yixin Liu, Kaiyuan Lin, Xiaomeng Chen, Dian Ding, Yijie Li, Yi-Chao Chen, Yincheng Jin, Mahanth Gowda
分类: cs.CV
发布日期: 2025-07-30
💡 一句话要点
提出LLM4-IC8K框架,利用大语言模型解决集成电路封装几何尺寸理解难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 集成电路封装 几何尺寸理解 大语言模型 多模态学习 PCB设计
📋 核心要点
- 现有方法难以从非结构化的IC机械图纸中自动解析和建模封装几何尺寸,缺乏有效的自动化标注方案。
- LLM4-IC8K框架将IC图纸视为图像,利用LLM进行结构化几何解释,模仿人类工程师的逐步推理过程。
- 通过在合成数据和真实数据上进行两阶段训练,LLM4-IC8K在ICGeo8K数据集上超越了现有LMM模型。
📝 摘要(中文)
集成电路(IC)的印刷电路板(PCB)封装几何尺寸标注对于定义元件和PCB布局之间的物理接口至关重要,需要卓越的视觉感知能力。然而,由于封装图纸的非结构化和抽象的图表注释,自动解析和精确的封装几何建模仍然极具挑战性。尽管其重要性,目前还没有直接从IC机械图纸自动标注封装几何尺寸的方法。在本文中,我们首先研究了大型多模态模型(LMM)在解决IC封装几何尺寸理解时的视觉感知性能。我们的研究结果表明,当前的LMM在几何感知方面存在严重的不准确性,这阻碍了它们在解决封装几何尺寸标注问题上的性能。为了解决这些限制,我们提出了LLM4-IC8K,这是一个新颖的框架,它将IC机械图纸视为图像,并利用LLM进行结构化的几何解释。为了模仿人类工程师使用的逐步推理方法,LLM4-IC8K解决了三个子任务:感知引脚数量、计算每个引脚的中心坐标以及估计单个引脚的尺寸。我们提出了一个两阶段框架,该框架首先在合成生成的IC封装图上训练LMM,以学习基本的几何推理,然后在真实世界的数据手册图纸上微调它们,以提高在实际场景中的鲁棒性和准确性。为了支持这一点,我们引入了ICGeo8K,一个包含8,608个标记样本的多模态数据集,包括4138个手工制作的IC封装样本和4470个合成生成的样本。大量的实验表明,我们的模型在提出的基准测试中优于最先进的LMM。
🔬 方法详解
问题定义:论文旨在解决从集成电路(IC)机械图纸中自动提取和理解封装几何尺寸信息的问题。现有方法,特别是大型多模态模型(LMM),在处理此类任务时,由于图纸的非结构化和抽象标注,存在几何感知不准确的痛点,导致无法有效进行封装几何尺寸标注。
核心思路:论文的核心思路是将IC机械图纸视为图像,并利用大型语言模型(LLM)进行结构化的几何解释。通过模仿人类工程师逐步推理的过程,将复杂问题分解为更易于处理的子任务,从而提高几何理解的准确性和效率。
技术框架:LLM4-IC8K框架采用两阶段训练方法。第一阶段,在合成生成的IC封装图上训练LMM,使其学习基本的几何推理能力。第二阶段,在真实世界的数据手册图纸上微调LMM,以增强其在实际场景中的鲁棒性和准确性。框架包含三个主要子任务:1) 感知引脚数量;2) 计算每个引脚的中心坐标;3) 估计单个引脚的尺寸。
关键创新:该论文的关键创新在于提出了一个专门针对IC封装几何尺寸理解的框架LLM4-IC8K,并结合了合成数据和真实数据进行两阶段训练。与直接使用现有LMM进行端到端预测不同,LLM4-IC8K通过分解任务和逐步推理,显著提高了几何理解的准确性。
关键设计:ICGeo8K数据集包含4138个手工制作的IC封装样本和4470个合成生成的样本,为模型的训练和评估提供了充足的数据支持。两阶段训练策略允许模型首先学习通用的几何推理能力,然后在真实数据上进行微调,以适应实际场景的复杂性。具体损失函数和网络结构细节未在摘要中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM4-IC8K框架在ICGeo8K数据集上显著优于现有的LMM模型。具体性能数据和提升幅度未在摘要中给出,属于未知信息。该研究证明了利用LLM进行结构化几何推理在解决复杂视觉感知问题方面的有效性。
🎯 应用场景
该研究成果可应用于电子设计自动化(EDA)领域,实现IC封装的自动建模和验证,提高PCB设计的效率和准确性。此外,该方法还可扩展到其他类型的工程图纸理解任务,例如机械零件图纸和建筑图纸的自动解析,具有广泛的应用前景。
📄 摘要(原文)
Printed-Circuit-board (PCB) footprint geometry labeling of integrated circuits (IC) is essential in defining the physical interface between components and the PCB layout, requiring exceptional visual perception proficiency. However, due to the unstructured footprint drawing and abstract diagram annotations, automated parsing and accurate footprint geometry modeling remain highly challenging. Despite its importance, no methods currently exist for automated package geometry labeling directly from IC mechanical drawings. In this paper, we first investigate the visual perception performance of Large Multimodal Models (LMMs) when solving IC footprint geometry understanding. Our findings reveal that current LMMs severely suffer from inaccurate geometric perception, which hinders their performance in solving the footprint geometry labeling problem. To address these limitations, we propose LLM4-IC8K, a novel framework that treats IC mechanical drawings as images and leverages LLMs for structured geometric interpretation. To mimic the step-by-step reasoning approach used by human engineers, LLM4-IC8K addresses three sub-tasks: perceiving the number of pins, computing the center coordinates of each pin, and estimating the dimensions of individual pins. We present a two-stage framework that first trains LMMs on synthetically generated IC footprint diagrams to learn fundamental geometric reasoning and then fine-tunes them on real-world datasheet drawings to enhance robustness and accuracy in practical scenarios. To support this, we introduce ICGeo8K, a multi-modal dataset with 8,608 labeled samples, including 4138 hand-crafted IC footprint samples and 4470 synthetically generated samples. Extensive experiments demonstrate that our model outperforms state-of-the-art LMMs on the proposed benchmark.