RefEvo: Agentic Design with Co-Evolutionary Verification for Agile Reference Model Generation

📄 arXiv: 2604.24218v1 📥 PDF

作者: Yifan Zhang, Jianmin Ye, Jiahao Yang, Xi Wang

分类: cs.SE, cs.AI

发布日期: 2026-04-27

备注: 6 pages, 7 figures, accepted by ISEDA2026


💡 一句话要点

RefEvo:利用协同进化验证的Agentic设计,加速敏捷参考模型生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参考模型生成 大型语言模型 硬件建模 协同进化验证 动态设计规划

📋 核心要点

  1. 现有方法在利用LLM生成硬件参考模型时,面临设计复杂性适应性差、上下文遗忘和耦合验证失败等挑战。
  2. RefEvo通过动态设计规划、协同进化验证和规范锚定策略,构建了一个敏捷可靠的多智能体参考建模框架。
  3. 实验表明,RefEvo在硬件模块基准测试中实现了95%的通过率,并显著降低了token消耗,同时保持了规范召回率。

📝 摘要(中文)

随着片上系统(SoC)设计复杂性的增长,左移范式要求快速开发高保真参考模型(通常用SystemC编写),以便进行早期的架构探索和验证。虽然大型语言模型(LLM)在代码生成方面显示出潜力,但它们在硬件建模中的应用面临独特的挑战:(1)僵化、静态的工作流程无法适应不同的设计复杂性,导致效率低下;(2)多轮交互中的上下文窗口溢出导致关键规范的灾难性遗忘;(3)耦合验证失败问题——由于相关的幻觉,生成的测试平台(TB)错误地验证了有缺陷的模型——严重损害了可靠性。为了解决这些限制,我们引入了RefEvo,这是一个动态的多智能体框架,专为敏捷和可靠的参考建模而设计。RefEvo具有三个关键创新:(1)动态设计规划器,可自主分解设计规范并根据语义复杂性构建定制的执行工作流程;(2)协同进化验证机制,该机制采用辩证仲裁器来同时纠正模型和验证逻辑,以对抗规范(Spec)预言机,从而有效减少误报;(3)用于无损上下文压缩的Spec锚定策略。在20个硬件模块的各种基准测试中进行评估,RefEvo的通过率达到95%,大大优于静态基线。此外,我们的上下文优化平均减少了71.04%的token消耗,对于复杂设计,每次会话可节省超过70,000个token,同时保持100%的规范召回率。

🔬 方法详解

问题定义:论文旨在解决使用大型语言模型(LLM)自动生成硬件参考模型时遇到的问题。现有方法,特别是静态工作流程,无法有效处理不同复杂度的设计,导致效率低下。此外,LLM的上下文窗口限制导致在多轮交互中遗忘关键规范,而测试平台(TB)和模型之间的相关幻觉会导致错误的验证结果,即耦合验证失败。这些问题阻碍了LLM在硬件建模领域的可靠应用。

核心思路:RefEvo的核心思路是构建一个动态的多智能体框架,该框架能够根据设计复杂性自适应地调整工作流程,并通过协同进化验证机制来提高模型的可靠性。通过动态规划设计流程,解决静态流程的局限性;通过协同进化验证,解决耦合验证失败的问题;通过规范锚定,解决上下文遗忘的问题。

技术框架:RefEvo框架包含三个主要模块:动态设计规划器、协同进化验证机制和规范锚定策略。动态设计规划器负责分解设计规范并构建定制的执行工作流程。协同进化验证机制使用辩证仲裁器同时纠正模型和验证逻辑,以对抗规范预言机。规范锚定策略用于无损上下文压缩,防止信息丢失。整体流程是,首先通过动态设计规划器将复杂任务分解为小任务,然后通过规范锚定策略压缩上下文,最后通过协同进化验证机制进行验证和纠错。

关键创新:RefEvo的关键创新在于其动态性和协同性。动态设计规划器能够根据设计的复杂性自适应地调整工作流程,这与传统的静态工作流程形成对比。协同进化验证机制通过同时优化模型和验证逻辑,有效地解决了耦合验证失败的问题,这是传统验证方法难以解决的。

关键设计:动态设计规划器使用语义复杂性作为指导,自动分解设计规范。协同进化验证机制中的辩证仲裁器采用对抗性训练方法,促使模型和验证逻辑相互改进。规范锚定策略使用一种无损压缩算法,保留关键规范信息,同时减少token消耗。具体的参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RefEvo在20个硬件模块的基准测试中取得了显著成果,通过率达到95%,远超静态基线。此外,RefEvo的上下文优化策略平均减少了71.04%的token消耗,对于复杂设计,每次会话可节省超过70,000个token,同时保持100%的规范召回率。这些结果表明RefEvo在提高效率和可靠性方面具有显著优势。

🎯 应用场景

RefEvo可应用于片上系统(SoC)设计的早期架构探索和验证阶段,加速高保真参考模型的开发。该框架能够提高硬件建模的效率和可靠性,降低设计成本,并缩短产品上市时间。未来,RefEvo有望扩展到更广泛的硬件设计领域,例如FPGA和ASIC设计。

📄 摘要(原文)

As the complexity of System-on-Chip (SoC) designs grows, the shift-left paradigm necessitates the rapid development of high-fidelity reference models (typically written in SystemC) for early architecture exploration and verification. While Large Language Models (LLMs) show promise in code generation, their application to hardware modeling faces unique challenges: (1) Rigid, static workflows fail to adapt to varying design complexity, causing inefficiency; (2) Context window overflow in multi-turn interactions leads to catastrophic forgetting of critical specifications; and (3) the Coupled Validation Failure problem--where generated Testbenches (TBs) incorrectly validate flawed models due to correlated hallucinations--severely undermines reliability. To address these limitations, we introduce RefEvo, a dynamic multi-agent framework designed for agile and reliable reference modeling. RefEvo features three key innovations: (1) A Dynamic Design Planner that autonomously decomposes design specifications and constructs tailored execution workflows based on semantic complexity; (2) A Co-Evolutionary Verification Mechanism, which employs a Dialectical Arbiter to simultaneously rectify the model and verification logic against the specification (Spec) oracle, effectively mitigating false positives; and (3) A Spec Anchoring Strategy for lossless context compression. Evaluated on a diverse benchmark of 20 hardware modules, RefEvo achieves a 95% pass rate, outperforming static baselines by a large margin. Furthermore, our context optimization reduces token consumption by an average of 71.04%, achieving absolute savings of over 70,000 tokens per session for complex designs while maintaining 100% specification recall.