BRIDGES: Bridging Graph Modality and Large Language Models within EDA Tasks
作者: Wei Li, Yang Zou, Christopher Ellis, Ruben Purdy, Shawn Blanton, José M. F. Moura
分类: cs.LG, cs.AI
发布日期: 2025-04-07
💡 一句话要点
BRIDGES:在EDA任务中桥接图模态与大型语言模型,提升性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: EDA任务 图神经网络 大型语言模型 跨模态学习 数据流图 网表图 电路设计 RTL代码
📋 核心要点
- 现有EDA中的LLM主要将图表示为顺序文本,忽略了RTL代码的数据流图等图结构数据,导致性能下降。
- BRIDGES框架通过轻量级跨模态投影器,将图表示编码为文本兼容的提示,使LLM无需架构修改即可有效利用图数据。
- 实验表明,BRIDGES在设计检索、类型预测和功能描述等任务中,性能提升2-10倍,且计算开销极小。
📝 摘要(中文)
本文提出BRIDGES框架,旨在将图模态融入EDA任务中的大型语言模型(LLM)。BRIDGES集成了自动化数据生成流程、图模态与LLM结合的解决方案以及全面的评估套件。首先,建立一个LLM驱动的工作流程,生成RTL和网表级数据,并将其转换为具有功能描述的数据流图和网表图。该流程产生了一个包含超过50万个图实例和超过15亿个token的大规模数据集。其次,提出了一个轻量级的跨模态投影器,将图表示编码为文本兼容的提示,使LLM能够有效地利用图数据而无需架构修改。实验结果表明,与仅使用文本的基线相比,在设计检索、类型预测和功能描述的困惑度等多个任务中,性能提高了2倍至10倍,且计算开销可忽略不计(模型权重增加<1%,额外运行时开销<30%)。即使没有额外的LLM微调,结果也大大优于仅使用文本的方法。计划发布BRIDGES,包括数据集、模型和训练流程。
🔬 方法详解
问题定义:现有EDA任务中,虽然许多数据以图的形式存在,但现有LLM主要将图数据转换为顺序文本处理,或者直接忽略图结构信息。这种处理方式忽略了图结构蕴含的丰富信息,导致LLM在EDA任务中的性能受限。现有方法无法有效利用图数据,成为一个重要的痛点。
核心思路:BRIDGES的核心思路是通过一个轻量级的跨模态投影器,将图的表示转换为LLM能够理解的文本兼容的提示。这样,LLM就可以在不改变自身架构的情况下,有效地利用图数据,从而提升在EDA任务中的性能。这种方法避免了直接修改LLM架构的复杂性,同时充分利用了图数据的优势。
技术框架:BRIDGES框架包含三个主要组成部分:1) 自动化数据生成流程:利用LLM生成RTL和网表级数据,并转换为数据流图和网表图;2) 跨模态投影器:将图表示编码为文本兼容的提示;3) 评估套件:用于评估模型在各种EDA任务中的性能。整个流程首先生成图数据,然后通过投影器将其转换为LLM可用的格式,最后使用评估套件进行性能评估。
关键创新:BRIDGES的关键创新在于轻量级的跨模态投影器。该投影器能够有效地将图的表示转换为文本兼容的提示,使得LLM能够在不进行架构修改的情况下,充分利用图数据。这种方法避免了直接修改LLM架构的复杂性,同时实现了图数据和LLM的有效融合。
关键设计:关于投影器的具体设计细节,论文中没有详细说明其参数设置和网络结构。但是,强调了其轻量级的特性,以及对LLM架构的非侵入性。损失函数和训练策略的细节也未明确给出,但强调了即使没有额外的LLM微调,也能取得显著的性能提升。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BRIDGES在多个EDA任务中取得了显著的性能提升。与仅使用文本的基线相比,在设计检索、类型预测和功能描述等任务中,准确率提高了2倍至10倍。同时,计算开销极小,模型权重增加不到1%,额外运行时开销小于30%。即使没有对LLM进行额外的微调,BRIDGES的性能也远超仅使用文本的方法。
🎯 应用场景
BRIDGES框架可应用于各种EDA任务,例如电路设计检索、类型预测和功能描述等。通过有效利用RTL代码和网表的图结构信息,可以提高EDA工具的自动化水平和设计效率。该研究的潜在价值在于降低芯片设计的复杂性和成本,加速芯片开发周期。未来,BRIDGES可以进一步扩展到其他涉及图数据的EDA任务中,例如布局布线优化和时序分析。
📄 摘要(原文)
While many EDA tasks already involve graph-based data, existing LLMs in EDA primarily either represent graphs as sequential text, or simply ignore graph-structured data that might be beneficial like dataflow graphs of RTL code. Recent studies have found that LLM performance suffers when graphs are represented as sequential text, and using additional graph information significantly boosts performance. To address these challenges, we introduce BRIDGES, a framework designed to incorporate graph modality into LLMs for EDA tasks. BRIDGES integrates an automated data generation workflow, a solution that combines graph modality with LLM, and a comprehensive evaluation suite. First, we establish an LLM-driven workflow to generate RTL and netlist-level data, converting them into dataflow and netlist graphs with function descriptions. This workflow yields a large-scale dataset comprising over 500,000 graph instances and more than 1.5 billion tokens. Second, we propose a lightweight cross-modal projector that encodes graph representations into text-compatible prompts, enabling LLMs to effectively utilize graph data without architectural modifications. Experimental results demonstrate 2x to 10x improvements across multiple tasks compared to text-only baselines, including accuracy in design retrieval, type prediction and perplexity in function description, with negligible computational overhead (<1% model weights increase and <30% additional runtime overhead). Even without additional LLM finetuning, our results outperform text-only by a large margin. We plan to release BRIDGES, including the dataset, models, and training flow.