HAVEN: Hybrid Automated Verification ENgine for UVM Testbench Synthesis with LLMs

📄 arXiv: 2604.27643v1 📥 PDF

作者: Chang-Chih Meng, Yu-Ren Lu, Guan-Yu Lin, Tsung Tai Yeh, Kai-Chiang Wu, I-Chen Wu

分类: cs.AR, cs.AI

发布日期: 2026-04-30

备注: 9 pages, 5 figures, 5 tables


💡 一句话要点

HAVEN:一种混合自动化验证引擎,利用LLM进行UVM测试平台综合

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: UVM测试平台 LLM辅助验证 硬件验证 自动化测试 领域特定语言 Jinja2模板 混合验证引擎

📋 核心要点

  1. IC验证耗时,LLM辅助生成测试平台面临HDL代码生成不准确的挑战。
  2. HAVEN通过LLM生成架构计划,结合预定义模板和协议感知DSL生成UVM组件和序列。
  3. 实验表明,HAVEN在多种接口协议上实现了高编译成功率和代码/功能覆盖率,达到SOTA水平。

📝 摘要(中文)

集成电路(IC)验证消耗了IC开发周期近70%的时间。最近的研究利用大型语言模型(LLM)来自动生成测试平台,从而减少验证开销。然而,LLM很难正确生成测试平台。与高级编程语言不同,硬件描述语言(HDL)在LLM的训练数据中非常罕见,导致LLM产生不正确的代码。为了克服在使用LLM生成通用验证方法(UVM)测试平台和序列时遇到的挑战,我们提出了HAVEN(混合自动化验证引擎),以防止LLM直接编写HDL。对于UVM测试平台生成,HAVEN利用LLM代理分析设计规范,以生成结构化的架构计划。然后,HAVEN模板引擎与预定义的和协议特定的模板相结合,以生成具有正确总线握手时序的所有UVM组件。对于UVM序列生成,HAVEN引入了一种协议感知序列领域特定语言(DSL),该语言将序列分解为细粒度的步骤类型。一组预定义的DSL模式首先建立序列,以在不涉及LLM的情况下实现高覆盖率。HAVEN通过迭代地利用LLM代理分析覆盖率差距报告并编写额外的有针对性的DSL序列来继续提高覆盖率。与之前的工作不同,HAVEN是第一个使用预定义的、协议特定的Jinja2模板来生成所有UVM组件和使用我们提出的协议感知DSL和基于规则的代码生成器的UVM序列的系统。我们在跨越三个接口协议(Direct, Wishbone, AXI4-Lite)的19个开源IP设计上的实验结果表明,HAVEN实现了100%的编译成功率,平均90.6%的代码覆盖率和87.9%的功能覆盖率,并且是LLM辅助测试平台生成系统中的SOTA。

🔬 方法详解

问题定义:论文旨在解决利用大型语言模型(LLM)自动生成UVM测试平台时,由于LLM缺乏HDL训练数据而导致代码生成不准确的问题。现有方法难以保证生成的测试平台能够正确地覆盖设计规范,并且验证效率较低。

核心思路:HAVEN的核心思路是避免让LLM直接生成HDL代码,而是利用LLM的理解能力生成高层次的架构计划,然后结合预定义的模板和领域特定语言(DSL)来生成UVM组件和序列。这种混合方法既利用了LLM的智能,又保证了代码的正确性和可维护性。

技术框架:HAVEN包含两个主要部分:UVM测试平台生成和UVM序列生成。对于测试平台生成,LLM代理分析设计规范,生成架构计划,然后HAVEN模板引擎结合预定义和协议特定的Jinja2模板生成UVM组件。对于序列生成,HAVEN引入协议感知序列DSL,将序列分解为细粒度步骤,并使用预定义DSL模式生成初始序列,再利用LLM分析覆盖率报告并生成额外的DSL序列。

关键创新:HAVEN的关键创新在于:1) 提出了一种混合方法,将LLM的理解能力与预定义模板和DSL相结合,避免了LLM直接生成HDL代码的缺陷。2) 引入了协议感知序列DSL,能够更精确地描述和生成UVM序列。3) 使用Jinja2模板生成UVM组件,提高了代码的可重用性和可维护性。

关键设计:HAVEN的关键设计包括:1) 预定义了针对不同接口协议(如Direct, Wishbone, AXI4-Lite)的Jinja2模板,确保生成的UVM组件符合协议规范。2) 设计了协议感知序列DSL,定义了细粒度的步骤类型,并提供了一组预定义的DSL模式,用于生成初始序列。3) 使用LLM代理分析覆盖率报告,并根据报告中的覆盖率差距生成额外的DSL序列,以提高覆盖率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HAVEN在19个开源IP设计上进行了实验,涵盖Direct, Wishbone, AXI4-Lite三种接口协议。实验结果表明,HAVEN实现了100%的编译成功率,平均代码覆盖率达到90.6%,功能覆盖率达到87.9%,优于其他LLM辅助的测试平台生成系统,达到了SOTA水平。

🎯 应用场景

HAVEN可应用于集成电路设计验证领域,通过自动化生成UVM测试平台和序列,显著减少验证工程师的工作量,缩短IC开发周期。该系统尤其适用于具有多种接口协议的复杂SoC设计,能够提高验证效率和覆盖率,降低验证成本,加速产品上市。

📄 摘要(原文)

Integrated Circuit (IC) verification consumes nearly 70% of the IC development cycle, and recent research leverages Large Language Models (LLMs) to automatically generate testbenches and reduce verification overhead. However, LLMs have difficulty generating testbenches correctly. Unlike high-level programming languages, Hardware Description Languages (HDLs) are extremely rare in LLMs training data, leading LLMs to produce incorrect code. To overcome challenges when using LLMs to generate Universal Verification Methodology (UVM) testbenches and sequences, wepropose HAVEN (Hybrid Automated Verification ENgine) to prevent LLMs from writing HDL directly. For UVM testbench generation, HAVEN utilizes LLM agents to analyze design specifications to produce a structured architectural plan. The HAVEN Template Engine then combines with predefined and protocol-specific templates to generate all UVM components with correct bus-handshake timing. For UVM sequence generation, HAVEN introduces a Protocol-Aware Sequence Domain-Specific Language (DSL) that decomposes sequences into fine-grained step types. A set of predefined DSL patterns first establishes sequences that achieve a high coverage rate without LLM involvement. HAVEN continues to improve the coverage rate by iteratively leveraging LLM agents to analyze coverage gap reports and compose additional targeted DSL sequences. Unlike previous works, HAVEN is the first system that utilizes pre-defined, protocol-specific Jinja2 templates to generate all UVM components and UVM sequences using our proposed Protocol-Aware DSL and rule-based code generator. Our experimental results on 19 open-source IP designs spanning three interface protocols (Direct, Wishbone, AXI4-Lite) show that HAVEN achieves 100% compilation success, 90.6% code coverage, and 87.9% functional coverage on average, and is SOTA among LLM-assisted testbench generation systems.