Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

📄 arXiv: 2603.09161v1 📥 PDF

作者: Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang

分类: cs.LG, cs.AI, cs.AR

发布日期: 2026-03-10


💡 一句话要点

利用不完美的LLM生成RTL学习网表表示,突破电路表示学习的数据瓶颈。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网表表示学习 大型语言模型 RTL代码生成 数据增强 电路功能理解

📋 核心要点

  1. 现有网表表示学习方法受限于高质量标注数据的稀缺,真实电路设计涉及知识产权保护,标注成本高昂。
  2. 该论文提出利用LLM生成RTL代码,即使生成的RTL代码功能不完善,其综合后的网表仍然保留了指示预期功能的结构模式。
  3. 实验结果表明,使用LLM生成的噪声数据训练的模型,在真实网表上的泛化性能可以匹配甚至超过使用少量高质量数据训练的模型。

📝 摘要(中文)

学习有效的网表表示受到标注数据集稀缺的根本限制,因为真实的电路设计受知识产权保护且标注成本高昂。现有工作因此侧重于具有干净标签的小规模电路,限制了其向实际设计的扩展。同时,大型语言模型(LLM)可以大规模生成寄存器传输级(RTL)代码,但其功能上的不正确性阻碍了它们在电路分析中的应用。本文提出一个关键观察:即使LLM生成的RTL在功能上不完善,综合后的网表仍然保留了强烈指示预期功能的结构模式。基于此,我们提出了一个经济高效的数据增强和训练框架,系统地利用不完美的LLM生成RTL作为网表表示学习的训练数据,形成从自动代码生成到下游任务的端到端流水线。我们在电路功能理解任务上进行了评估,包括子电路边界识别和组件分类,跨越了规模不断增长的基准测试,将任务范围从算子级别扩展到IP级别。评估表明,在我们的噪声合成语料库上训练的模型可以很好地泛化到真实世界的网表,匹配甚至超过在稀缺的高质量数据上训练的方法,有效地打破了电路表示学习中的数据瓶颈。

🔬 方法详解

问题定义:现有网表表示学习方法面临数据瓶颈,高质量标注数据稀缺且成本高昂。现有方法通常依赖于小规模、干净的数据集,难以扩展到实际的复杂电路设计。LLM虽然可以生成RTL代码,但其功能正确性无法保证,难以直接用于电路分析。

核心思路:论文的核心思路是利用LLM生成的大量RTL代码,即使这些代码在功能上不完全正确,但其综合后的网表仍然保留了电路结构的有效信息。通过将LLM生成的RTL代码作为一种噪声数据增强手段,可以有效缓解数据稀缺问题。

技术框架:该方法构建了一个端到端的流水线,包括:1) 使用LLM生成RTL代码;2) 将RTL代码综合成网表;3) 使用生成的网表数据训练网表表示学习模型;4) 在下游任务(如子电路边界识别和组件分类)上评估模型性能。该框架的关键在于利用了LLM生成RTL代码的规模优势,并将其转化为可用于网表表示学习的训练数据。

关键创新:该方法最重要的创新点在于发现了即使LLM生成的RTL代码功能不完善,其综合后的网表仍然保留了电路结构的有效信息。这使得可以利用LLM生成的大量噪声数据来训练网表表示学习模型,从而打破了数据瓶颈。与现有方法相比,该方法不需要大量高质量的标注数据,降低了数据获取的成本。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但是,可以推断,损失函数的设计需要考虑噪声数据的影响,例如,可以使用鲁棒的损失函数来降低噪声数据对模型训练的影响。此外,网络结构的设计也需要考虑电路结构的特点,例如,可以使用图神经网络来学习网表的表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用LLM生成的噪声数据训练的模型,在真实网表上的泛化性能可以匹配甚至超过使用少量高质量数据训练的模型。在子电路边界识别和组件分类等任务上,该方法取得了显著的性能提升,有效地打破了电路表示学习中的数据瓶颈,将任务范围从算子级别扩展到IP级别。

🎯 应用场景

该研究成果可应用于电路设计自动化领域,例如,可以用于自动生成电路设计、电路功能验证、电路故障诊断等。通过利用LLM生成RTL代码,可以降低电路设计的成本和时间,提高电路设计的效率和质量。此外,该方法还可以应用于其他领域,例如,软件代码分析、生物网络分析等。

📄 摘要(原文)

Learning effective netlist representations is fundamentally constrained by the scarcity of labeled datasets, as real designs are protected by Intellectual Property (IP) and costly to annotate. Existing work therefore focuses on small-scale circuits with clean labels, limiting scalability to realistic designs. Meanwhile, Large Language Models (LLMs) can generate Register-Transfer-Level (RTL) at scale, but their functional incorrectness has hindered their use in circuit analysis. In this work, we make a key observation: even when LLM-Generated RTL is functionally imperfect, the synthesized netlists still preserve structural patterns that are strongly indicative of the intended functionality. Building on this insight, we propose a cost-effective data augmentation and training framework that systematically exploits imperfect LLM-Generated RTL as training data for netlist representation learning, forming an end-to-end pipeline from automated code generation to downstream tasks. We conduct evaluations on circuit functional understanding tasks, including sub-circuit boundary identification and component classification, across benchmarks of increasing scales, extending the task scope from operator-level to IP-level. The evaluations demonstrate that models trained on our noisy synthetic corpus generalize well to real-world netlists, matching or even surpassing methods trained on scarce high-quality data and effectively breaking the data bottleneck in circuit representation learning.