AnalogSeeker: An Open-source Foundation Language Model for Analog Circuit Design

📄 arXiv: 2508.10409v2 📥 PDF

作者: Zihao Chen, Ji Zhuang, Jinyi Shen, Xiaoyue Ke, Xinyi Yang, Mingjie Zhou, Zhuoyao Du, Xu Yan, Zhouyang Wu, Zhenyu Xu, Jiangli Huang, Li Shang, Xuan Zeng, Fan Yang

分类: cs.AR, cs.AI

发布日期: 2025-08-14 (更新: 2025-11-05)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

AnalogSeeker:用于模拟电路设计的开源基础语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模拟电路设计 语言模型 知识蒸馏 微调 领域知识 开源 电路设计自动化

📋 核心要点

  1. 模拟电路设计领域数据稀缺,现有方法难以有效利用领域知识,阻碍了设计自动化和智能化。
  2. AnalogSeeker通过领域知识蒸馏和邻域自约束微调,将非结构化文本知识转化为可学习的数据,提升模型性能。
  3. 实验表明,AnalogSeeker在AMSBench-TQA上准确率达到85.04%,相比原模型提升15.67%,并在运放设计任务中表现出色。

📝 摘要(中文)

本文提出了AnalogSeeker,一个旨在集成领域知识并提供设计辅助的开源模拟电路设计基础语言模型。为了克服该领域数据的稀缺性,我们采用了一种基于模拟电路领域知识框架的语料库收集策略,系统地整理和清洗了相关子领域的高质量、可访问的教科书,形成文本领域语料库。为了解决模拟电路知识的复杂性,我们引入了一种细粒度的领域知识蒸馏方法,将原始的、未标记的领域语料库分解为典型的、细粒度的学习节点,其中多智能体框架将嵌入在非结构化文本中的隐式知识提炼成带有详细推理过程的问答数据对,从而产生用于微调的细粒度的、可学习的数据集。为了应对训练模拟电路基础模型中未被探索的挑战,我们通过理论分析和实验验证来探索和分享我们的训练方法。我们最终建立了一个以微调为中心的训练范式,定制和实现了一种邻域自约束监督微调算法。这种方法通过约束模型在训练前后输出分布之间的扰动幅度来增强训练效果。在实践中,我们训练了Qwen2.5-32B-Instruct模型以获得AnalogSeeker,该模型在模拟电路知识评估基准AMSBench-TQA上实现了85.04%的准确率,比原始模型提高了15.67个百分点,并且与主流商业模型具有竞争力。此外,AnalogSeeker在下游运算放大器设计任务中也显示出有效性。AnalogSeeker已在https://huggingface.co/analogllm/analogseeker开源,供研究使用。

🔬 方法详解

问题定义:模拟电路设计高度依赖专家知识,但相关数据稀缺,现有方法难以有效利用领域知识进行学习和推理。这限制了模拟电路设计的自动化水平,并阻碍了AI技术在该领域的应用。现有方法通常依赖于有限的标注数据或手工设计的规则,难以泛化到复杂的电路设计场景。

核心思路:AnalogSeeker的核心思路是利用领域知识框架,从高质量的教科书中提取知识,并将其转化为可学习的数据。通过细粒度的知识蒸馏,将非结构化文本中的隐式知识转化为问答对,从而构建大规模的训练数据集。此外,采用邻域自约束微调算法,保证模型在微调过程中不会过度偏离原始模型的知识分布,从而提高模型的泛化能力。

技术框架:AnalogSeeker的整体框架包括三个主要阶段:1) 领域语料库构建:系统地收集和清洗模拟电路相关子领域的高质量教科书,构建文本领域语料库。2) 细粒度知识蒸馏:将原始语料库分解为细粒度的学习节点,利用多智能体框架将非结构化文本中的隐式知识提炼成问答数据对。3) 微调训练:采用邻域自约束监督微调算法,对预训练语言模型进行微调,得到AnalogSeeker模型。

关键创新:AnalogSeeker的关键创新在于:1) 提出了一种基于领域知识框架的语料库构建策略,有效解决了模拟电路设计领域数据稀缺的问题。2) 引入了一种细粒度的知识蒸馏方法,能够将非结构化文本中的隐式知识转化为可学习的数据。3) 提出了一种邻域自约束微调算法,能够有效提高模型的泛化能力。

关键设计:在知识蒸馏阶段,采用了多智能体框架,每个智能体负责从不同的角度提取知识,并生成问答对。在微调阶段,采用了邻域自约束损失函数,该损失函数约束模型在训练前后输出分布之间的扰动幅度,防止模型过度拟合训练数据。具体而言,该损失函数计算模型在训练前后输出分布的KL散度,并将其作为正则化项添加到原始的监督损失函数中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnalogSeeker在AMSBench-TQA基准测试中取得了显著成果,准确率达到85.04%,比原始Qwen2.5-32B-Instruct模型提高了15.67个百分点,并且与主流商业模型具有竞争力。此外,AnalogSeeker在下游运算放大器设计任务中也表现出有效性,证明了其在实际应用中的潜力。

🎯 应用场景

AnalogSeeker可应用于模拟电路设计的各个阶段,例如电路拓扑选择、参数优化和性能预测。它可以帮助工程师快速评估不同的设计方案,并提供设计建议。此外,AnalogSeeker还可以用于自动化电路设计,从而提高设计效率和降低设计成本。未来,AnalogSeeker有望成为模拟电路设计领域的重要工具,推动该领域的智能化发展。

📄 摘要(原文)

In this paper, we propose AnalogSeeker, an effort toward an open-source foundation language model for analog circuit design, with the aim of integrating domain knowledge and giving design assistance. To overcome the scarcity of data in this field, we employ a corpus collection strategy based on the domain knowledge framework of analog circuits. High-quality, accessible textbooks across relevant subfields are systematically curated and cleaned into a textual domain corpus. To address the complexity of knowledge of analog circuits, we introduce a granular domain knowledge distillation method. Raw, unlabeled domain corpus is decomposed into typical, granular learning nodes, where a multi-agent framework distills implicit knowledge embedded in unstructured text into question-answer data pairs with detailed reasoning processes, yielding a fine-grained, learnable dataset for fine-tuning. To address the unexplored challenges in training analog circuit foundation models, we explore and share our training methods through both theoretical analysis and experimental validation. We finally establish a fine-tuning-centric training paradigm, customizing and implementing a neighborhood self-constrained supervised fine-tuning algorithm. This approach enhances training outcomes by constraining the perturbation magnitude between the model's output distributions before and after training. In practice, we train the Qwen2.5-32B-Instruct model to obtain AnalogSeeker, which achieves 85.04% accuracy on AMSBench-TQA, the analog circuit knowledge evaluation benchmark, with a 15.67% point improvement over the original model and is competitive with mainstream commercial models. Furthermore, AnalogSeeker also shows effectiveness in the downstream operational amplifier design task. AnalogSeeker is open-sourced at https://huggingface.co/analogllm/analogseeker for research use.