MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs

📄 arXiv: 2411.03471v2 📥 PDF

作者: Manar Abdelatty, Jingxiao Ma, Sherief Reda

分类: cs.AR, cs.CL

发布日期: 2024-11-05 (更新: 2025-01-27)


💡 一句话要点

提出MetRex基准数据集,评估LLM在Verilog代码综合后指标推理中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Verilog代码 综合后指标推理 硬件设计自动化 思维链 监督式微调 MetRex数据集

📋 核心要点

  1. 现有方法缺乏利用LLM进行硬件描述语言(HDL)设计综合后指标推理的能力,存在一定的局限性。
  2. 论文提出MetRex数据集,并结合思维链(CoT)模板,旨在提升LLM对Verilog代码综合后面积、延迟和功耗等指标的推理能力。
  3. 实验结果表明,监督式微调(SFT)能显著提升LLM在指标推理方面的性能,并在预测精度和速度上优于传统回归模型。

📝 摘要(中文)

本文评估了大型语言模型(LLM)在Verilog设计综合后指标推理方面的能力。为此,我们引入了MetRex,一个包含25,868个Verilog HDL设计及其对应的综合后指标(面积、延迟和静态功耗)的大规模数据集。MetRex结合了思维链(CoT)模板,以增强LLM对这些指标的推理能力。大量实验表明,监督式微调(SFT)平均提高了LLM在面积、延迟和静态功耗方面的推理能力,分别提升了37.0%、25.3%和25.7%。虽然SFT提高了基准测试的性能,但距离达到最佳结果还很远,尤其是在复杂问题上。与最先进的回归模型相比,我们的方法能够为多出17.4%的设计提供准确的综合后预测(误差在5%以内),并且通过消除预处理需求,实现了1.7倍的加速。这项工作为推进基于LLM的Verilog代码指标推理奠定了基础。

🔬 方法详解

问题定义:论文旨在解决Verilog硬件描述语言(HDL)代码在综合后阶段的指标推理问题,即利用LLM预测设计的面积、延迟和静态功耗等关键性能指标。现有方法主要依赖于传统的回归模型,这些模型需要大量预处理,且难以捕捉Verilog代码的复杂语义信息。因此,如何利用LLM的强大语义理解能力,实现更准确、更高效的综合后指标预测,是本文要解决的核心问题。

核心思路:论文的核心思路是利用LLM强大的代码理解和推理能力,直接从Verilog代码中学习综合后指标的映射关系。通过构建大规模数据集MetRex,并结合思维链(CoT)模板,引导LLM逐步推理,从而提高预测精度。这种方法避免了传统回归模型所需的复杂预处理步骤,并能够更好地捕捉Verilog代码的语义信息。

技术框架:整体框架包括以下几个主要部分:1) 构建大规模数据集MetRex,包含Verilog代码及其对应的综合后指标(面积、延迟、静态功耗);2) 设计思维链(CoT)模板,用于引导LLM进行逐步推理;3) 使用监督式微调(SFT)方法,在MetRex数据集上对LLM进行训练;4) 评估训练后的LLM在指标推理任务上的性能,并与传统回归模型进行比较。

关键创新:最重要的技术创新点在于将LLM应用于Verilog代码综合后指标推理任务,并提出了MetRex数据集和CoT模板。与现有方法相比,该方法能够直接从Verilog代码中学习指标映射关系,避免了复杂的预处理步骤,并能够更好地捕捉代码的语义信息。此外,CoT模板的设计也有效地提升了LLM的推理能力。

关键设计:MetRex数据集包含25,868个Verilog HDL设计,涵盖了各种不同的电路结构和功能。CoT模板的设计旨在引导LLM逐步推理,例如,首先分析代码的功能,然后考虑电路的复杂度,最后预测指标的值。监督式微调(SFT)使用标准的交叉熵损失函数,并采用Adam优化器进行训练。具体的网络结构和参数设置取决于所使用的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,监督式微调(SFT)能够显著提升LLM在面积、延迟和静态功耗方面的推理能力,分别提升了37.0%、25.3%和25.7%。与最先进的回归模型相比,该方法能够为多出17.4%的设计提供准确的综合后预测(误差在5%以内),并且通过消除预处理需求,实现了1.7倍的加速。

🎯 应用场景

该研究成果可应用于硬件设计的早期阶段,帮助工程师快速评估不同设计方案的性能指标,从而做出更明智的设计决策。此外,该方法还可以用于自动化硬件设计流程,提高设计效率。未来,该研究有望推动基于LLM的硬件设计自动化工具的发展,并促进硬件设计的智能化。

📄 摘要(原文)

Large Language Models (LLMs) have been applied to various hardware design tasks, including Verilog code generation, EDA tool scripting, and RTL bug fixing. Despite this extensive exploration, LLMs are yet to be used for the task of post-synthesis metric reasoning and estimation of HDL designs. In this paper, we assess the ability of LLMs to reason about post-synthesis metrics of Verilog designs. We introduce MetRex, a large-scale dataset comprising 25,868 Verilog HDL designs and their corresponding post-synthesis metrics, namely area, delay, and static power. MetRex incorporates a Chain of Thought (CoT) template to enhance LLMs' reasoning about these metrics. Extensive experiments show that Supervised Fine-Tuning (SFT) boosts the LLM's reasoning capabilities on average by 37.0\%, 25.3\%, and 25.7\% on the area, delay, and static power, respectively. While SFT improves performance on our benchmark, it remains far from achieving optimal results, especially on complex problems. Comparing to state-of-the-art regression models, our approach delivers accurate post-synthesis predictions for 17.4\% more designs (within a 5\% error margin), in addition to offering a 1.7x speedup by eliminating the need for pre-processing. This work lays the groundwork for advancing LLM-based Verilog code metric reasoning.