CircuitSense: A Hierarchical Circuit System Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

📄 arXiv: 2509.22339v1 📥 PDF

作者: Arman Akbari, Jian Gao, Yifei Zou, Mei Yang, Jinru Duan, Dmitrii Torbunov, Yanzhi Wang, Yihui Ren, Xuan Zhang

分类: cs.CV

发布日期: 2025-09-26


💡 一句话要点

CircuitSense:提出电路系统基准,桥接工程设计中的视觉理解与符号推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电路理解 视觉推理 符号推理 多模态学习 工程设计

📋 核心要点

  1. 现有MLLM在自然图像任务表现良好,但在从技术图表中提取数学模型的能力上存在不足,工程领域缺乏有效评估工具。
  2. CircuitSense基准通过分层电路系统,从组件级到系统级,全面评估MLLM在感知、分析和设计方面的能力,尤其关注符号方程推导。
  3. 实验表明,现有MLLM在视觉感知任务上表现较好,但在符号推导和分析推理方面存在显著差距,符号推理能力直接影响设计任务的准确性。

📝 摘要(中文)

工程设计通过从系统规范到组件实现的层级抽象进行运作,需要在每个层级上进行视觉理解和数学推理。尽管多模态大型语言模型(MLLM)在自然图像任务中表现出色,但它们从技术图表中提取数学模型的能力仍未得到充分探索。我们提出了CircuitSense,这是一个全面的基准,通过8006+个问题评估跨越组件级原理图到系统级框图的电路理解。我们的基准独特地检验了完整的工程工作流程:感知、分析和设计,特别强调了从视觉输入中推导符号方程的关键但未被充分探索的能力。我们引入了一个分层合成生成管道,包括一个基于网格的原理图生成器和一个带有自动推导符号方程标签的框图生成器。对六个最先进的MLLM(包括闭源和开源模型)的全面评估揭示了视觉到数学推理的根本局限性。闭源模型在涉及组件识别和拓扑识别的感知任务中实现了超过85%的准确率,但它们在符号推导和分析推理方面的性能低于19%,暴露了视觉解析和符号推理之间的关键差距。具有更强符号推理能力的模型始终在设计任务中获得更高的准确率,证实了数学理解在电路综合中的根本作用,并将符号推理确立为工程能力的关键指标。

🔬 方法详解

问题定义:现有方法,特别是多模态大型语言模型,在处理工程设计中涉及的视觉信息和数学推理的结合时存在局限性。它们在从电路图等技术图表中提取数学模型方面表现不佳,这阻碍了它们在工程设计流程中的应用。缺乏一个能够全面评估模型在电路理解方面的能力的基准。

核心思路:CircuitSense的核心思路是创建一个分层的电路系统基准,该基准能够模拟工程设计流程中的各个阶段,包括感知、分析和设计。通过构建一个包含从组件级原理图到系统级框图的各种电路问题的综合数据集,并要求模型执行诸如识别组件、推导符号方程和进行分析推理等任务,从而全面评估模型的电路理解能力。

技术框架:CircuitSense的整体框架包括一个分层合成生成管道,该管道由一个基于网格的原理图生成器和一个框图生成器组成。该管道能够自动生成带有符号方程标签的电路图和框图。生成的基准包含8006+个问题,涵盖了电路理解的各个方面。评估流程包括使用各种MLLM对基准进行评估,并分析它们在不同任务上的表现。

关键创新:CircuitSense的关键创新在于其对工程设计流程的全面模拟,以及对视觉到数学推理能力的强调。该基准不仅评估了模型在视觉感知方面的能力,还评估了它们在符号推导和分析推理方面的能力。此外,该基准还引入了一个分层合成生成管道,该管道能够自动生成带有符号方程标签的电路图和框图。

关键设计:CircuitSense的分层合成生成管道包含一个基于网格的原理图生成器和一个框图生成器。原理图生成器使用预定义的组件库和连接规则生成电路原理图。框图生成器使用预定义的模块库和连接规则生成系统框图。两个生成器都能够自动推导生成的电路图和框图的符号方程。基准中的问题涵盖了电路理解的各个方面,包括组件识别、拓扑识别、符号推导和分析推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对六个最先进的MLLM的评估表明,闭源模型在感知任务中达到超过85%的准确率,但在符号推导和分析推理方面的性能低于19%。具有更强符号推理能力的模型在设计任务中表现更好,证实了数学理解在电路综合中的重要性。这些结果突出了现有MLLM在视觉到数学推理方面的局限性,并强调了符号推理在工程应用中的关键作用。

🎯 应用场景

CircuitSense基准的潜在应用领域包括自动化电路设计、电路故障诊断、电子工程教育等。该基准可以用于评估和改进MLLM在工程设计领域的应用能力,提高设计效率和质量。未来,该研究可以扩展到其他工程领域,例如机械设计和控制系统设计。

📄 摘要(原文)

Engineering design operates through hierarchical abstraction from system specifications to component implementations, requiring visual understanding coupled with mathematical reasoning at each level. While Multi-modal Large Language Models (MLLMs) excel at natural image tasks, their ability to extract mathematical models from technical diagrams remains unexplored. We present \textbf{CircuitSense}, a comprehensive benchmark evaluating circuit understanding across this hierarchy through 8,006+ problems spanning component-level schematics to system-level block diagrams. Our benchmark uniquely examines the complete engineering workflow: Perception, Analysis, and Design, with a particular emphasis on the critical but underexplored capability of deriving symbolic equations from visual inputs. We introduce a hierarchical synthetic generation pipeline consisting of a grid-based schematic generator and a block diagram generator with auto-derived symbolic equation labels. Comprehensive evaluation of six state-of-the-art MLLMs, including both closed-source and open-source models, reveals fundamental limitations in visual-to-mathematical reasoning. Closed-source models achieve over 85\% accuracy on perception tasks involving component recognition and topology identification, yet their performance on symbolic derivation and analytical reasoning falls below 19\%, exposing a critical gap between visual parsing and symbolic reasoning. Models with stronger symbolic reasoning capabilities consistently achieve higher design task accuracy, confirming the fundamental role of mathematical understanding in circuit synthesis and establishing symbolic reasoning as the key metric for engineering competence.