RTL-BenchLS: A Large-Scale Benchmark for RTL Reasoning and Generation with Large Language Models

📄 arXiv: 2606.08976v1 📥 PDF

作者: Jing Wang, Shang Liu, Wenji Fang, Yuchao Wu, Yugao Zhu, Zhiyao Xie

分类: cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出RTL-BenchLS以解决现有RTL基准的规模与任务局限问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RTL生成 硬件设计自动化 大语言模型 基准测试 推理能力 形式验证 自监督学习

📋 核心要点

  1. 现有RTL基准在规模和任务范围上存在局限,导致前沿模型性能饱和,无法有效评估复杂设计。
  2. 提出RTL-BenchLS基准,包含超过10,000个经过验证的Verilog设计,并引入三项新任务以评估推理与生成能力。
  3. 在RTL-BenchLS上评估的八个大语言模型表现不佳,最佳模型在自然语言推理任务上仅达到23%的准确率,显示出基准的挑战性。

📝 摘要(中文)

基于大语言模型的RTL生成与推理是硬件设计自动化的一个有前景的方向。高质量的基准测试是追踪这一方向进展的重要基础。然而,现有的RTL基准在规模和任务范围上存在固有的局限性,通常覆盖的小型设计和简单任务使得前沿模型在现有基准上的性能趋于饱和。为了解决这些问题,本文提出了RTL-BenchLS,一个包含超过10,000个经过正式验证的Verilog设计的大规模基准,涵盖了比现有基准更大更复杂的设计。除了规范到RTL的生成外,我们还提出了三项新任务,联合评估推理与生成能力。所有任务均通过形式等价性检查验证,无需手动测试基准。

🔬 方法详解

问题定义:现有的RTL基准测试在规模和任务范围上存在局限,导致无法有效评估复杂硬件设计的生成与推理能力,尤其是缺乏高质量的对齐标签数据。

核心思路:本文提出RTL-BenchLS基准,旨在通过提供大量经过验证的Verilog设计和新任务,解决现有基准的规模和任务局限性,从而推动基于大语言模型的RTL生成与推理研究。

技术框架:RTL-BenchLS的整体架构包括三个主要模块:1) 大规模的Verilog设计库,2) 三项新任务(往返推理、掩码内容推理、库问题推理),3) 形式等价性检查模块,确保所有任务的验证。

关键创新:最重要的技术创新在于引入了自监督学习的任务设计,特别是往返推理和掩码内容推理,直接解决了现有基准的规模瓶颈,同时不依赖于手动测试基准。

关键设计:在任务设计中,采用了形式等价性检查作为验证手段,确保生成的RTL与规范之间的一致性,且所有任务均无需手动创建测试基准,显著提高了基准的可用性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RTL-BenchLS基准上评估的八个大语言模型表现不佳,最佳模型在自然语言往返推理任务上仅达到23%的准确率,掩码内容推理任务为28%,库问题修复任务为12%。这些结果表明,RTL-BenchLS的挑战性远超现有基准,为未来的研究提供了广阔的改进空间。

🎯 应用场景

该研究的潜在应用领域包括硬件设计自动化、集成电路设计和系统级芯片开发等。通过提供一个高质量的大规模基准,RTL-BenchLS将为研究人员和工程师提供有效的工具,以评估和改进基于大语言模型的RTL生成与推理方法,推动硬件设计领域的创新与发展。

📄 摘要(原文)

LLM-based RTL generation and reasoning is a promising direction for hardware design automation. High-quality benchmarks are critical infrastructure for tracking progress in this direction. However, existing RTL benchmarks face inherent limitations in both scale and task scope. The designs they cover are typically small and simple, and the tasks focus almost entirely on specification-to-RTL generation. Frontier models' performance already saturates on the existing benchmarks. Scaling these benchmarks up is fundamentally difficult because aligned labels are required for benchmarking, such as specifications and testbenches. Such aligned high-quality data are rarely available for real-world designs. We introduce RTL-BenchLS, a large-scale benchmark addressing both limitations above. It contains over 10,000 formally verified Verilog designs, covering substantially larger and more complex designs than existing benchmarks. Beyond specification-to-RTL generation, we propose three novel tasks that jointly evaluate reasoning and generation: round-trip reasoning, masked-content reasoning, and repository-issue reasoning. The first two are self-supervised, which directly resolves the scaling bottleneck. All tasks are verified through formal equivalence checking without any manual testbenches. We evaluate eight LLMs on RTL-BenchLS. Even the best model reaches only 23% on natural-language round-trip reasoning, 28% on masked-content reasoning, and 12% on repository-issue fixing. RTL-BenchLS is substantially more challenging than existing benchmarks. It leaves ample room for future improvement and offers guidance for developing LLM-based methods for hardware design.