Pushing the Limits of Inverse Lithography with Generative Reinforcement Learning

作者: Haoyu Yang, Haoxing Ren

分类: cs.LG, cs.AI

发布日期: 2026-02-22

备注: 7 pages, 4 figures, accepted by the 63th Design Automation Conference

💡 一句话要点

提出基于生成强化学习的反向光刻方法，突破传统ILT的局部最优限制。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 反向光刻 生成式AI 强化学习 半导体制造 掩模优化

📋 核心要点

传统反向光刻技术易陷入局部最优，优化效果受限，难以满足日益增长的芯片制造精度需求。
论文提出一种基于生成强化学习的掩模合成方法，生成多个候选掩模，并利用ILT进行优化选择。
实验表明，该方法在LithoBench和ICCAD13数据集上均优于传统数值ILT方法，显著提升了EPE和吞吐量。

📝 摘要（中文）

反向光刻技术(ILT)对现代半导体制造至关重要，但其高度非凸的目标函数常使优化陷入较差的局部最小值。生成式AI已被用于ILT的预热启动，但多数方法训练确定性的图像到图像转换器来模仿次优数据集，对逃离非凸陷阱的优化指导有限。本文将掩模合成重新定义为条件采样：生成器学习设计条件下的掩模分布，并提出多个候选。生成器首先通过WGAN和一个重构损失进行预训练，然后使用带有ILT引导的模仿损失的Group Relative Policy Optimization (GRPO)进行微调。在推理时，我们采样一小批掩模，运行快速批处理ILT优化，评估光刻指标（例如，EPE，工艺窗口），并选择最佳候选。在 exttt{LithoBench}数据集上，所提出的混合框架在3nm容差下减少了EPE违规，并使吞吐量大约是强大的数值ILT基线的两倍，同时提高了最终掩模质量。我们还在 exttt{ICCAD13}竞赛案例中实现了超过20％的EPE改进，并且比SOTA数值ILT求解器快3倍。通过学习提出ILT友好的初始化，我们的方法减轻了非凸性，并超越了传统求解器或GenAI所能实现的水平。

🔬 方法详解

问题定义：反向光刻技术(ILT)旨在优化光刻掩模，以在晶圆上获得期望的图案。然而，ILT优化问题具有高度非凸性，传统数值优化方法容易陷入局部最优解，导致最终光刻效果不佳，例如边缘位置误差(EPE)过大。现有基于生成式AI的方法通常采用确定性的图像到图像转换，模仿次优数据集，无法有效引导优化过程跳出局部最优。

核心思路：论文将掩模合成视为一个条件采样问题，即生成器学习在给定设计目标下，掩模的概率分布。通过生成多个候选掩模，并结合ILT优化，选择最佳的掩模作为最终结果。这种方法旨在提供更多样化的初始化，从而增加找到全局最优解的机会。

技术框架：该方法包含两个主要阶段：预训练和强化学习微调。首先，使用WGAN（Wasserstein GAN）和一个重构损失来预训练生成器，使其能够生成符合设计规则的掩模。然后，使用Group Relative Policy Optimization (GRPO)算法对生成器进行微调，GRPO算法使用ILT优化结果作为奖励信号，引导生成器生成更易于ILT优化的掩模。在推理阶段，生成器生成多个候选掩模，然后使用快速批处理ILT优化对每个候选掩模进行优化，最后选择具有最佳光刻指标（如EPE和工艺窗口）的掩模。

关键创新：该方法的核心创新在于将生成式AI与强化学习相结合，并将其应用于ILT的初始化问题。与传统的确定性图像到图像转换方法不同，该方法学习掩模的概率分布，从而能够生成更多样化的候选掩模。此外，使用强化学习算法，以ILT优化结果作为奖励信号，引导生成器生成更易于优化的掩模，从而有效地缓解了ILT优化问题的非凸性。

关键设计：生成器网络结构未知，但使用了WGAN作为预训练目标，以提高生成掩模的质量和多样性。强化学习阶段，采用了Group Relative Policy Optimization (GRPO)算法，这是一种适用于多候选方案选择的强化学习算法。损失函数包括WGAN损失、重构损失和ILT引导的模仿损失。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

在LithoBench数据集上，该方法在3nm容差下减少了EPE违规，并使吞吐量大约是强大的数值ILT基线的两倍，同时提高了最终掩模质量。在ICCAD13竞赛案例中，该方法实现了超过20％的EPE改进，并且比SOTA数值ILT求解器快3倍。这些结果表明，该方法能够有效地缓解ILT优化问题的非凸性，并显著提高光刻性能。

🎯 应用场景

该研究成果可应用于先进半导体制造工艺中，例如EUV光刻。通过生成高质量的初始掩模，可以显著提高ILT的优化效率和最终光刻质量，从而降低芯片制造成本，提高芯片性能。该方法还有潜力应用于其他需要解决非凸优化问题的领域，例如光学设计和材料科学。

📄 摘要（原文）

Inverse lithography (ILT) is critical for modern semiconductor manufacturing but suffers from highly non-convex objectives that often trap optimization in poor local minima. Generative AI has been explored to warm-start ILT, yet most approaches train deterministic image-to-image translators to mimic sub-optimal datasets, providing limited guidance for escaping non-convex traps during refinement. We reformulate mask synthesis as conditional sampling: a generator learns a distribution over masks conditioned on the design and proposes multiple candidates. The generator is first pretrained with WGAN plus a reconstruction loss, then fine-tuned using Group Relative Policy Optimization (GRPO) with an ILT-guided imitation loss. At inference, we sample a small batch of masks, run fast batched ILT refinement, evaluate lithography metrics (e.g., EPE, process window), and select the best candidate. On \texttt{LithoBench} dataset, the proposed hybrid framework reduces EPE violations under a 3\,nm tolerance and roughly doubles throughput versus a strong numerical ILT baseline, while improving final mask quality. We also present over 20\% EPE improvement on \texttt{ICCAD13} contest cases with 3$\times$ speedup over the SOTA numerical ILT solver. By learning to propose ILT-friendly initializations, our approach mitigates non-convexity and advances beyond what traditional solvers or GenAI can achieve.

Pushing the Limits of Inverse Lithography with Generative Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理