MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs
作者: Chenchen Zhao, Zhengyuan Shi, Xiangyu Wen, Chengjie Liu, Yi Liu, Yunhao Zhou, Yuxiang Zhao, Hefei Feng, Yinan Zhu, Gwok-Waa Wan, Xin Cheng, Weiyu Chen, Yongqi Fu, Chujie Chen, Chenhao Xue, Guangyu Sun, Ying Wang, Yibo Lin, Jun Yang, Ning Xu, Xi Wang, Qiang Xu
分类: cs.LG, cs.AI
发布日期: 2025-07-20
备注: 10 pages, 1 figure, 5 tables. To appear in ICCAD 2025
🔗 代码/项目: GITHUB
💡 一句话要点
MMCircuitEval:首个面向电路的多模态大语言模型综合评估基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 电子设计自动化 电路设计 评估基准 问答数据集
📋 核心要点
- 现有EDA基准测试范围狭窄,无法全面评估多模态大语言模型(MLLM)在电路设计中的能力。
- 提出MMCircuitEval,一个包含3614个问答对的多模态基准,覆盖EDA各阶段,并按设计阶段、电路类型等分类。
- 实验表明,现有LLM在后端设计和复杂计算方面存在显著差距,需要有针对性的训练和建模。
📝 摘要(中文)
多模态大语言模型(MLLM)的出现为电子设计自动化(EDA)的自动化和增强带来了有希望的机会。然而,由于现有基准测试范围狭窄,全面评估这些模型在电路设计中的能力仍然具有挑战性。为了弥合这一差距,我们推出了MMCircuitEval,这是第一个专门用于全面评估MLLM在各种EDA任务中性能的多模态基准。MMCircuitEval包含3614个精心策划的问答(QA)对,涵盖数字和模拟电路,横跨关键的EDA阶段——从通用知识和规范到前端和后端设计。每个QA对都来源于教科书、技术题库、数据手册和真实文档,并经过严格的专家审查,以确保准确性和相关性。我们的基准独特地根据设计阶段、电路类型、测试能力(知识、理解、推理、计算)和难度级别对问题进行分类,从而能够详细分析模型的能力和局限性。广泛的评估表明,现有LLM之间存在显著的性能差距,尤其是在后端设计和复杂计算方面,突出了对有针对性的训练数据集和建模方法的迫切需求。MMCircuitEval为推进EDA中的MLLM提供了一个基础资源,促进了它们集成到实际的电路设计工作流程中。我们的基准可在https://github.com/cure-lab/MMCircuitEval上找到。
🔬 方法详解
问题定义:现有EDA基准测试无法全面评估MLLM在电路设计中的能力,尤其是在后端设计和复杂计算方面。缺乏一个综合性的基准来指导MLLM在EDA领域的应用,阻碍了相关研究的进展。
核心思路:构建一个包含丰富EDA任务的问答数据集,覆盖电路设计的各个阶段,并对问题进行细粒度的分类,从而全面评估MLLM的能力和局限性。通过分析模型在不同类别问题上的表现,为后续的改进提供指导。
技术框架:MMCircuitEval基准包含3614个问答对,涵盖数字和模拟电路,以及EDA的各个阶段,包括通用知识、规范、前端设计和后端设计。问题来源于教科书、技术题库、数据手册和真实文档,并经过专家审查。问题根据设计阶段、电路类型、测试能力(知识、理解、推理、计算)和难度级别进行分类。
关键创新:MMCircuitEval是第一个专门为评估MLLM在EDA领域性能而设计的综合性多模态基准。它不仅覆盖了电路设计的各个阶段,还对问题进行了细粒度的分类,从而能够更深入地分析模型的能力和局限性。
关键设计:数据集的构建过程中,QA对的选取和设计都经过了专家审查,保证了准确性和相关性。问题的分类标准也经过精心设计,能够反映模型在不同方面的能力。难度级别也进行了划分,可以评估模型在不同难度问题上的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在MMCircuitEval基准上存在显著的性能差距,尤其是在后端设计和复杂计算方面。这表明需要针对性的训练数据集和建模方法来提高LLM在EDA领域的性能。该基准的发布为后续研究提供了一个重要的评估平台。
🎯 应用场景
MMCircuitEval可用于评估和改进MLLM在电子设计自动化(EDA)领域的应用,例如自动电路设计、验证和优化。该基准能够促进MLLM在实际电路设计工作流程中的集成,提高设计效率和质量,并降低开发成本。未来可用于开发更智能化的EDA工具。
📄 摘要(原文)
The emergence of multimodal large language models (MLLMs) presents promising opportunities for automation and enhancement in Electronic Design Automation (EDA). However, comprehensively evaluating these models in circuit design remains challenging due to the narrow scope of existing benchmarks. To bridge this gap, we introduce MMCircuitEval, the first multimodal benchmark specifically designed to assess MLLM performance comprehensively across diverse EDA tasks. MMCircuitEval comprises 3614 meticulously curated question-answer (QA) pairs spanning digital and analog circuits across critical EDA stages - ranging from general knowledge and specifications to front-end and back-end design. Derived from textbooks, technical question banks, datasheets, and real-world documentation, each QA pair undergoes rigorous expert review for accuracy and relevance. Our benchmark uniquely categorizes questions by design stage, circuit type, tested abilities (knowledge, comprehension, reasoning, computation), and difficulty level, enabling detailed analysis of model capabilities and limitations. Extensive evaluations reveal significant performance gaps among existing LLMs, particularly in back-end design and complex computations, highlighting the critical need for targeted training datasets and modeling approaches. MMCircuitEval provides a foundational resource for advancing MLLMs in EDA, facilitating their integration into real-world circuit design workflows. Our benchmark is available at https://github.com/cure-lab/MMCircuitEval.