Pushing the Limits of Inverse Lithography with Generative Reinforcement Learning

📄 arXiv: 2602.19027v1 📥 PDF

作者: Haoyu Yang, Haoxing Ren

分类: cs.LG, cs.AI

发布日期: 2026-02-22

备注: 7 pages, 4 figures, accepted by the 63th Design Automation Conference


💡 一句话要点

提出基于生成强化学习的反向光刻方法,突破传统ILT的局部最优限制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 反向光刻 生成式AI 强化学习 半导体制造 掩模优化

📋 核心要点

  1. 传统反向光刻技术易陷入局部最优,优化效果受限,难以满足日益增长的芯片制造精度需求。
  2. 论文提出一种基于生成强化学习的掩模合成方法,生成多个候选掩模,并利用ILT进行优化选择。
  3. 实验表明,该方法在LithoBench和ICCAD13数据集上均优于传统数值ILT方法,显著提升了EPE和吞吐量。

📝 摘要(中文)

反向光刻技术(ILT)对现代半导体制造至关重要,但其高度非凸的目标函数常使优化陷入较差的局部最小值。生成式AI已被用于ILT的预热启动,但多数方法训练确定性的图像到图像转换器来模仿次优数据集,对逃离非凸陷阱的优化指导有限。本文将掩模合成重新定义为条件采样:生成器学习设计条件下的掩模分布,并提出多个候选。生成器首先通过WGAN和一个重构损失进行预训练,然后使用带有ILT引导的模仿损失的Group Relative Policy Optimization (GRPO)进行微调。在推理时,我们采样一小批掩模,运行快速批处理ILT优化,评估光刻指标(例如,EPE,工艺窗口),并选择最佳候选。在 exttt{LithoBench}数据集上,所提出的混合框架在3nm容差下减少了EPE违规,并使吞吐量大约是强大的数值ILT基线的两倍,同时提高了最终掩模质量。我们还在 exttt{ICCAD13}竞赛案例中实现了超过20%的EPE改进,并且比SOTA数值ILT求解器快3倍。通过学习提出ILT友好的初始化,我们的方法减轻了非凸性,并超越了传统求解器或GenAI所能实现的水平。

🔬 方法详解

问题定义:反向光刻技术(ILT)旨在优化光刻掩模,以在晶圆上获得期望的图案。然而,ILT优化问题具有高度非凸性,传统数值优化方法容易陷入局部最优解,导致最终光刻效果不佳,例如边缘位置误差(EPE)过大。现有基于生成式AI的方法通常采用确定性的图像到图像转换,模仿次优数据集,无法有效引导优化过程跳出局部最优。

核心思路:论文将掩模合成视为一个条件采样问题,即生成器学习在给定设计目标下,掩模的概率分布。通过生成多个候选掩模,并结合ILT优化,选择最佳的掩模作为最终结果。这种方法旨在提供更多样化的初始化,从而增加找到全局最优解的机会。

技术框架:该方法包含两个主要阶段:预训练和强化学习微调。首先,使用WGAN(Wasserstein GAN)和一个重构损失来预训练生成器,使其能够生成符合设计规则的掩模。然后,使用Group Relative Policy Optimization (GRPO)算法对生成器进行微调,GRPO算法使用ILT优化结果作为奖励信号,引导生成器生成更易于ILT优化的掩模。在推理阶段,生成器生成多个候选掩模,然后使用快速批处理ILT优化对每个候选掩模进行优化,最后选择具有最佳光刻指标(如EPE和工艺窗口)的掩模。

关键创新:该方法的核心创新在于将生成式AI与强化学习相结合,并将其应用于ILT的初始化问题。与传统的确定性图像到图像转换方法不同,该方法学习掩模的概率分布,从而能够生成更多样化的候选掩模。此外,使用强化学习算法,以ILT优化结果作为奖励信号,引导生成器生成更易于优化的掩模,从而有效地缓解了ILT优化问题的非凸性。

关键设计:生成器网络结构未知,但使用了WGAN作为预训练目标,以提高生成掩模的质量和多样性。强化学习阶段,采用了Group Relative Policy Optimization (GRPO)算法,这是一种适用于多候选方案选择的强化学习算法。损失函数包括WGAN损失、重构损失和ILT引导的模仿损失。具体参数设置未知。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

在LithoBench数据集上,该方法在3nm容差下减少了EPE违规,并使吞吐量大约是强大的数值ILT基线的两倍,同时提高了最终掩模质量。在ICCAD13竞赛案例中,该方法实现了超过20%的EPE改进,并且比SOTA数值ILT求解器快3倍。这些结果表明,该方法能够有效地缓解ILT优化问题的非凸性,并显著提高光刻性能。

🎯 应用场景

该研究成果可应用于先进半导体制造工艺中,例如EUV光刻。通过生成高质量的初始掩模,可以显著提高ILT的优化效率和最终光刻质量,从而降低芯片制造成本,提高芯片性能。该方法还有潜力应用于其他需要解决非凸优化问题的领域,例如光学设计和材料科学。

📄 摘要(原文)

Inverse lithography (ILT) is critical for modern semiconductor manufacturing but suffers from highly non-convex objectives that often trap optimization in poor local minima. Generative AI has been explored to warm-start ILT, yet most approaches train deterministic image-to-image translators to mimic sub-optimal datasets, providing limited guidance for escaping non-convex traps during refinement. We reformulate mask synthesis as conditional sampling: a generator learns a distribution over masks conditioned on the design and proposes multiple candidates. The generator is first pretrained with WGAN plus a reconstruction loss, then fine-tuned using Group Relative Policy Optimization (GRPO) with an ILT-guided imitation loss. At inference, we sample a small batch of masks, run fast batched ILT refinement, evaluate lithography metrics (e.g., EPE, process window), and select the best candidate. On \texttt{LithoBench} dataset, the proposed hybrid framework reduces EPE violations under a 3\,nm tolerance and roughly doubles throughput versus a strong numerical ILT baseline, while improving final mask quality. We also present over 20\% EPE improvement on \texttt{ICCAD13} contest cases with 3$\times$ speedup over the SOTA numerical ILT solver. By learning to propose ILT-friendly initializations, our approach mitigates non-convexity and advances beyond what traditional solvers or GenAI can achieve.