OpenRTLSet: A Fully Open-Source Dataset for Large Language Model-based Verilog Module Design
作者: Jinghua Wang, Lily Jiaxin Wan, Sanjana Pingali, Scott Smith, Manvi Jha, Shalini Sivakumar, Xing Zhao, Kaiwen Cao, Deming Chen
分类: cs.CL
发布日期: 2026-06-09
备注: Accepted by ICLAD'25
期刊: 2025 IEEE International Conference on LLM-Aided Design (ICLAD), Stanford, CA, USA, 2025, pp. 212-218
DOI: 10.1109/ICLAD65226.2025.00038
💡 一句话要点
提出OpenRTLSet以推动开源硬件设计数据集的发展
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开源数据集 硬件设计 Verilog 自然语言处理 模型微调 深度学习 自动化设计
📋 核心要点
- 现有硬件设计数据集缺乏足够的多样性和开放性,限制了研究和应用的广度。
- OpenRTLSet通过整合多种来源的Verilog代码,提供了一个全面的开源数据集,支持语言模型的微调。
- 实验结果表明,使用OpenRTLSet进行训练的模型在硬件设计任务中表现优于传统方法,提升了生成代码的质量。
📝 摘要(中文)
OpenRTLSet引入了最大的完全开源硬件设计数据集,为研究界和工业界提供了超过131,000个多样化的Verilog代码样本。该数据集独特地结合了来自GitHub的Verilog代码(10.2万模块)、VHDL翻译(5千模块)和可综合的C/C++翻译(2.4万模块),所有内容均可自由访问,无专有限制。通过推理模型DeepSeek-R1,我们为每个代码样本生成了配对的自然语言描述,支持多种语言模型(如Qwen和Granite)的微调,以实现Verilog代码生成。OpenRTLSet展示了开源方法在硬件设计任务中能够实现优越性能,为该领域的可访问研究和商业应用奠定了新基础。
🔬 方法详解
问题定义:本论文旨在解决现有硬件设计数据集的多样性不足和开放性缺失的问题。现有方法往往依赖于封闭的数据集,限制了研究的可重复性和应用的广泛性。
核心思路:论文提出的核心思路是构建一个全面的开源数据集OpenRTLSet,整合来自不同来源的Verilog代码样本,并为每个样本生成自然语言描述,以支持语言模型的微调。这样的设计能够提高模型在硬件设计任务中的表现。
技术框架:OpenRTLSet的整体架构包括数据收集、样本标注和模型训练三个主要阶段。首先,从GitHub和其他来源收集Verilog代码;其次,使用DeepSeek-R1模型生成自然语言描述;最后,利用这些数据对语言模型进行微调。
关键创新:OpenRTLSet的最大创新在于其数据集的规模和多样性,结合了多种语言的代码样本,并且所有数据均为开源,打破了传统硬件设计数据集的限制。
关键设计:在数据标注过程中,采用了Verilator生成的C++文件作为额外上下文,并探索了量化技术(如INT4与BF16),同时评估了不同模型规模(7B-32B参数)的性能差异。
🖼️ 关键图片
📊 实验亮点
实验结果显示,基于OpenRTLSet训练的模型在硬件设计任务中表现优异,相较于传统方法,生成代码的质量提升显著,具体性能数据尚未披露,但整体趋势表明开源方法在此领域的优势。
🎯 应用场景
OpenRTLSet的研究成果具有广泛的应用潜力,特别是在硬件设计自动化、嵌入式系统开发和教育领域。通过提供一个开放的数据集,研究人员和开发者可以更容易地进行创新和实验,推动硬件设计工具和技术的发展。
📄 摘要(原文)
OpenRTLSet introduces the largest fully open-source dataset for hardware design, offering over 131,000 diverse Verilog code samples to the research community and industry. Our dataset uniquely combines Verilog code from GitHub repositories (102k modules), VHDL translations (5k modules), and synthesizable C/C++ translations (24k modules), all freely accessible without proprietary restrictions. Using the reasoning model DeepSeek-R1, we generated paired natural language descriptions for each code sample, enabling fine-tuning of various language model families (e.g., Qwen and Granite) for Verilog code generation. Our dataset explores multiple options, including Verilator-generated C++ files as additional context during labeling, quantization techniques (INT4 vs. BF16), and performance differences across model sizes (7B-32B parameters). OpenRTLSet demonstrates that open-source approaches can achieve superior performance in hardware design tasks, establishing a new foundation for accessible research and commercial use in this domain.