Bridging the Sim-to-Real Gap in Semiconductor Visual Program Synthesis via Input Binarization
作者: Yusuke Ohtsubo, Kota Dohi, Koichiro Yawata, Koki Takeshita, Tatsuya Sasaki
分类: cs.AI
发布日期: 2026-06-01
💡 一句话要点
提出基于输入二值化的视觉程序合成方法,弥合半导体图像Sim-to-Real差距
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视觉程序合成 Sim-to-Real 半导体检测 领域特定语言 视觉-语言模型
📋 核心要点
- 现有方法难以保证半导体检测中纳米级几何精度,真实数据获取成本高昂,合成数据存在Sim-to-Real域差距。
- 利用视觉-语言模型将SEM图像转换为可编辑的DSL代码,通过精确参数控制生成训练数据,缓解数据不足问题。
- 提出输入二值化策略,去除SEM图像的纹理和噪声,使模型专注于几何结构,实验表明能有效弥合域差距。
📝 摘要(中文)
精确控制电路几何参数对于半导体检测至关重要,但获取足够的真实训练数据成本高昂。虽然扩散模型和生成对抗网络(GANs)等生成模型可以扩充训练数据,但它们无法保证计量任务所需的纳米级几何精度。我们提出了一个视觉程序合成框架,其中视觉-语言模型(VLM)将检测图像转换为可编辑的领域特定语言(DSL)代码,描述电路几何形状,从而能够以精确的参数操作控制生成训练数据。由于VLM仅在合成的DSL渲染数据上进行训练,因此在处理真实的扫描电子显微镜(SEM)图像时会出现域差距。我们使用输入二值化策略来弥合这一差距,该策略消除了SEM特定的纹理和噪声,使模型专注于几何结构。在MIIC数据集上,与原始输入基线相比,二值化输入将平均Dice系数从0.4393提高到0.5256,表明简单的纹理抽象可以大大缓解sim-to-real的差距。
🔬 方法详解
问题定义:论文旨在解决半导体检测中,由于真实SEM图像数据不足且合成数据存在Sim-to-Real域差距,导致视觉模型难以精确控制电路几何参数的问题。现有方法如GANs虽然可以生成数据,但无法保证纳米级的精度,直接使用合成数据训练的模型在真实图像上的泛化能力差。
核心思路:论文的核心思路是利用视觉-语言模型(VLM)将SEM图像转换为可编辑的领域特定语言(DSL)代码,从而实现对电路几何形状的精确参数控制。同时,通过输入二值化策略,减少真实SEM图像中的纹理和噪声,使模型更关注几何结构,从而缓解Sim-to-Real的域差距。
技术框架:整体框架包含以下几个主要步骤:1) 使用DSL生成合成的电路几何图像数据;2) 使用合成数据训练VLM,使其能够将图像转换为DSL代码;3) 对真实的SEM图像进行二值化处理,去除纹理和噪声;4) 使用训练好的VLM将二值化后的SEM图像转换为DSL代码,进行后续的分析和处理。
关键创新:最重要的技术创新点在于结合了视觉程序合成和输入二值化策略。视觉程序合成允许精确控制生成数据的参数,而输入二值化则有效地减少了真实图像和合成图像之间的差异,从而提高了模型的泛化能力。与直接使用GANs等生成模型相比,该方法能够更好地保证几何精度。
关键设计:关键设计包括:1) 选择合适的DSL来描述电路几何形状,使其既能表达复杂的结构,又能方便地进行参数控制;2) 设计有效的二值化算法,尽可能去除纹理和噪声,同时保留关键的几何信息;3) 选择合适的VLM架构,并设计合适的损失函数,以保证模型能够准确地将图像转换为DSL代码。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在MIIC数据集上,使用二值化输入后,VLM的性能得到了显著提升,平均Dice系数从0.4393提高到0.5256。这一结果证明了输入二值化策略能够有效地缓解Sim-to-Real的域差距,使模型更好地泛化到真实SEM图像上。该提升表明,简单的纹理抽象就能带来显著的性能改进。
🎯 应用场景
该研究成果可应用于半导体制造过程中的自动缺陷检测、电路设计验证和逆向工程等领域。通过精确控制电路几何参数,可以提高检测精度和效率,降低生产成本,加速新产品的研发。未来,该方法有望扩展到其他需要高精度几何控制的视觉任务中。
📄 摘要(原文)
Precise parametric control over circuit geometry is essential for semiconductor inspection, yet obtaining sufficient real training data remains costly. Although generative models such as diffusion models and Generative Adversarial Networks (GANs) can augment training data, they cannot guarantee the nanometer-scale geometric accuracy required for metrology tasks. We propose a visual program synthesis framework in which a Vision-Language Model (VLM) converts inspection images into editable Domain-Specific Language (DSL) code describing circuit geometries, enabling controlled generation of training data with exact parameter manipulation. Because the VLM is trained solely on synthetic DSL-rendered data, a domain gap arises when processing real Scanning Electron Microscope (SEM) images. We bridge this gap with an input binarization strategy that strips SEM-specific texture and noise, letting the model focus on geometric structure. On the MIIC dataset, binarized inputs improve the mean Dice coefficient from 0.4393 to 0.5256 over the raw-input baseline, demonstrating that simple texture abstraction substantially mitigates the sim-to-real gap.