How Can Reinforcement Learning Achieve Expert-level Placement?
作者: Ruo-Tong Chen, Ke Xue, Chengrui Gao, Yunqi Shi, Tian Xu, Peng Xie, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou
分类: cs.AR, cs.AI, cs.LG
发布日期: 2026-04-28
备注: DAC 2026
💡 一句话要点
提出基于专家布局学习的强化学习方法,提升芯片布局质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 芯片布局 强化学习 逆强化学习 专家系统 物理设计
📋 核心要点
- 现有基于强化学习的芯片布局方法主要优化线长,忽略了其他重要因素,导致布局质量与专家存在差距。
- 该论文提出从专家布局中学习隐式奖励模型,避免了手动设计复杂奖励函数的困难,从而提升布局质量。
- 实验结果表明,该框架能够从少量专家设计中有效学习,并泛化到新的设计案例,提升布局性能。
📝 摘要(中文)
芯片布局是物理设计中的关键步骤。虽然基于强化学习(RL)的方法最近已经出现,但它们的训练主要集中在线长优化上,因此常常无法实现专家级别的布局质量。我们认为奖励函数的设计是造成与专家水平差距的主要原因。因此,我们没有形式化复杂的流程,而是通过直接从专家布局中学习来推导奖励模型。我们的方法从最终的专家布局开始,推断出逐步的专家轨迹。使用这些轨迹作为演示或偏好,我们训练一个模型来捕捉专家结果中潜在的隐式奖励。实验表明,我们的框架可以有效地从单个设计中学习,并很好地泛化到未见过的情况。
🔬 方法详解
问题定义:芯片布局问题旨在确定芯片上各个模块的最佳位置,以优化性能指标,如线长、拥塞和功耗。现有的基于强化学习的方法通常使用线长作为主要奖励信号,这忽略了专家布局中蕴含的复杂设计规则和经验,导致布局质量难以达到专家水平。
核心思路:该论文的核心思路是从专家布局中学习。通过逆向工程,从最终的专家布局推断出专家在布局过程中采取的步骤(轨迹),并将这些轨迹作为强化学习的训练数据。这样,强化学习智能体就可以学习到专家布局的隐式奖励,从而生成更优的布局。
技术框架:该方法包含以下主要步骤:1) 专家轨迹推断:从给定的专家布局开始,通过算法推断出专家在布局过程中可能采取的一系列步骤。2) 奖励模型训练:使用推断出的专家轨迹作为训练数据,训练一个奖励模型,该模型能够预测给定布局状态下采取特定动作的奖励。3) 强化学习训练:使用训练好的奖励模型作为环境的奖励函数,训练一个强化学习智能体,使其能够生成高质量的芯片布局。
关键创新:该论文的关键创新在于使用专家布局来学习奖励模型,而不是手动设计复杂的奖励函数。这种方法能够捕捉到专家布局中蕴含的隐式知识和设计规则,从而提升布局质量。与现有方法相比,该方法避免了手动设计奖励函数的困难,并且能够更好地泛化到不同的设计案例。
关键设计:专家轨迹推断的具体算法未知,奖励模型的具体网络结构未知,强化学习算法的选择未知。论文中可能使用了模仿学习或逆强化学习等技术来训练奖励模型。损失函数的设计可能包括模仿学习中的行为克隆损失或逆强化学习中的奖励函数学习损失。
🖼️ 关键图片
📊 实验亮点
论文实验表明,该框架能够从单个专家设计中有效地学习,并很好地泛化到未见过的情况。具体的性能数据和对比基线未知,但摘要强调了该方法能够提升芯片布局的质量,使其更接近专家水平。
🎯 应用场景
该研究成果可应用于芯片物理设计自动化领域,提升芯片布局的质量和效率。通过学习专家布局,该方法能够帮助设计人员更快地生成高性能的芯片布局,缩短设计周期,降低设计成本。此外,该方法还可以应用于其他布局优化问题,如电路板布局和数据中心布局。
📄 摘要(原文)
Chip placement is a critical step in physical design. While reinforcement learning (RL)-based methods have recently emerged, their training primarily focuses on wirelength optimization, and therefore often fail to achieve expert-quality layouts. We identify the reward design as the primary cause for the performance gap with experts, and instead of formalizing intricate processes, we circumvent this by directly learning from expert layouts to derive a reward model. Our approach starts from the final expert layouts to infer step-by-step expert trajectories. Using these trajectories as demonstrations or preferences, we train a model that captures the latent implicit rewards in expert results. Experiments show that our framework can efficiently learn from even a single design and generalize well to unseen cases.