ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation
作者: Zhongkai Yu, Yichen Lin, Chenyang Zhou, Yuwei Zhang, Kun Zhou, Junxia Cui, Haotian Ye, Zhengding Hu, Zaifeng Pan, Ruiyi Wang, Yujie Zhao, Hejia Zhang, Jingbo Shang, Jishen Zhao, Yufei Ding
分类: cs.MA, cs.AI, cs.AR, cs.LG
发布日期: 2026-05-13
🔗 代码/项目: GITHUB
💡 一句话要点
ChipMATE:首个自训练多智能体RTL生成框架,通过强化学习提升代码质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: RTL代码生成 多智能体系统 强化学习 自训练 芯片设计 Verilog 形式验证
📋 核心要点
- 现有RTL代码生成方法依赖黄金测试平台和闭源API,无法利用厂商内部数据,与工业实践脱节。
- ChipMATE采用多智能体框架,Verilog智能体和Python参考模型相互验证,无需黄金预言机。
- ChipMATE在VerilogEval V2上超越现有自训练模型,甚至超过了参数量更大的DeepSeek V4。
📝 摘要(中文)
本文提出了ChipMATE,一个用于RTL代码生成的自训练多智能体框架。现有基于API的智能体系统与工业实践不符,它们依赖于生成时的黄金测试平台,使用与芯片供应商安全要求不兼容的闭源API,并且无法在供应商的专有RTL代码库上进行训练,导致有价值的内部数据未被利用。ChipMATE通过配对一个Verilog智能体和一个Python参考模型智能体,相互验证彼此的输出,而无需任何黄金预言机,从而弥合了这些差距。设计了基于回溯的推理工作流程,以防止跨回合的错误传播,以及一个两阶段训练流程,首先单独训练每个智能体以饱和其代码生成能力,然后联合训练团队以有效地协作。为了支持训练,进一步构建了一个混合数据生成框架,生成了64.4K高质量的参考模型训练样本。ChipMATE在使用4B和9B基础模型的情况下,在VerilogEval V2上分别实现了75.0%和80.1%的pass@1,优于所有现有的自训练模型,甚至超过了具有1600B参数的DeepSeek V4。代码和模型权重已公开。
🔬 方法详解
问题定义:现有基于API的RTL代码生成方法依赖于黄金测试平台,这在实际工业环境中通常不可用。此外,它们依赖于闭源API,与芯片供应商严格的安全要求相悖。更重要的是,这些方法无法利用供应商的专有RTL代码库进行训练,导致大量有价值的内部数据被浪费。因此,如何设计一个能够在没有黄金测试平台和闭源API的情况下,利用内部数据进行训练的RTL代码生成框架是一个关键问题。
核心思路:ChipMATE的核心思路是采用多智能体协作的方式,通过让一个Verilog智能体和一个Python参考模型智能体相互验证彼此的输出,从而实现无需黄金预言机的自训练。这种设计模仿了工业实践中通过独立编写的RTL模块和参考模型之间的交叉比较来验证正确性的方法。通过这种方式,可以有效地利用内部数据,并避免对外部API的依赖。
技术框架:ChipMATE的整体框架包含以下几个主要模块:1) 数据生成模块:用于生成高质量的参考模型训练样本。2) 智能体训练模块:包含两个阶段,首先单独训练Verilog智能体和Python参考模型智能体,然后联合训练它们以实现有效的协作。3) 推理模块:采用基于回溯的推理工作流程,以防止跨回合的错误传播。Verilog智能体负责生成Verilog代码,Python参考模型智能体负责生成参考模型,两者相互验证。
关键创新:ChipMATE最重要的技术创新点在于其自训练多智能体框架,该框架无需黄金预言机,而是通过智能体之间的相互验证来实现代码质量的提升。此外,ChipMATE还提出了一个基于回溯的推理工作流程,以防止错误传播,以及一个两阶段训练流程,以优化智能体之间的协作。
关键设计:ChipMATE的关键设计包括:1) 混合数据生成框架,用于生成高质量的参考模型训练样本。2) 两阶段训练流程,首先单独训练每个智能体,然后联合训练它们。3) 基于回溯的推理工作流程,用于防止错误传播。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述,但具体数值未知。
🖼️ 关键图片
📊 实验亮点
ChipMATE在VerilogEval V2数据集上取得了显著的性能提升。使用4B和9B参数的基础模型时,分别达到了75.0%和80.1%的pass@1指标,超越了所有现有的自训练模型。更令人印象深刻的是,ChipMATE甚至超过了拥有1600B参数的DeepSeek V4模型,证明了其在RTL代码生成方面的强大能力。
🎯 应用场景
ChipMATE具有广泛的应用前景,可用于自动化RTL代码生成,加速芯片设计流程,降低设计成本。该框架特别适用于对安全性要求极高的芯片设计场景,例如军用芯片和金融芯片,因为它可以避免对外部API的依赖。此外,ChipMATE还可以用于教育领域,帮助学生学习RTL代码设计。
📄 摘要(原文)
Existing API-based agentic systems for RTL code generation are fundamentally misaligned with industrial practice: they assume a golden testbench is available at generation time, rely on closed-source APIs incompatible with chip vendors' air-gapped security requirements, and cannot be trained on vendors' proprietary RTL codebases, leaving valuable internal data unused. Recent self-trained models address the deployment constraint but remain single-turn generators that overlook the critical role of verification in real industrial flows. To bridge these gaps, we present ChipMATE, the first self-trained multi-agent framework for RTL generation. Inspired by industrial practice where correctness emerges from cross-comparison between independently written RTL modules and reference models, ChipMATE pairs a Verilog agent with a Python reference-model agent that mutually verify each other's outputs without any golden oracle. We design a backtrack-based inference workflow to prevent error propagation across turns, and a two-stage training pipeline that first trains each agent individually to saturate its code-generation capability, then trains the team jointly to collaborate effectively. To support the training, we further build a hybrid data-generation framework that produces 64.4K high-quality reference model training samples. ChipMATE achieves 75.0\% and 80.1\% pass@1 on VerilogEval V2 with 4B and 9B base models, outperforming all existing self-trained models and even DeepSeek V4 with 1600B parameters. Our code and model weights are publicly available in https://github.com/zhongkaiyu/ChipMATE.