UniRTL: Unifying Code and Graph for Robust RTL Representation Learning
作者: Yi Liu, Hongji Zhang, Lei Chen, Mingxuan Yuan, Qiang Xu
分类: cs.LG
发布日期: 2026-05-29
备注: Forty-Third International Conference on Machine Learning (ICML 2026)
💡 一句话要点
UniRTL:融合代码与图结构的鲁棒RTL表示学习框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: RTL表示学习 多模态融合 代码表示 图神经网络 预训练 硬件设计自动化 性能预测
📋 核心要点
- 现有RTL表示学习方法依赖单一模态(代码或图),限制了表达能力和泛化性。
- UniRTL通过多模态预训练框架,联合利用RTL代码和控制数据流图(CDFG)学习统一表示。
- 实验表明,UniRTL在性能预测和代码检索任务上显著优于现有方法,提升硬件设计自动化水平。
📝 摘要(中文)
开发有效的寄存器传输级(RTL)设计表示对于加速硬件设计流程至关重要。然而,现有方法通常依赖于单一数据模态,即RTL代码或其相关的基于图的表示,限制了学习到的表示的表达能力和泛化能力。对于RTL,控制数据流图(CDFG)提供了一个全面的结构化表示,保留了完整的信息,而代码模态则显式地编码了语义和功能信息。我们认为,整合这些互补的模态对于全面理解RTL设计至关重要。为此,我们提出了UniRTL,一个多模态预训练框架,通过联合利用代码和CDFG来学习统一的RTL表示。UniRTL通过相互掩码建模实现代码和图之间的细粒度对齐,并采用分层训练策略,该策略结合了预训练的图感知分词器以及在图集成之前对文本(即,功能摘要)和代码的分阶段对齐。我们在多个设置下评估了UniRTL在性能预测和代码检索这两个下游任务上的表现。实验结果表明,UniRTL始终优于先前的方法,使其成为推进硬件设计自动化的更强大和更鲁棒的基础。
🔬 方法详解
问题定义:现有RTL表示学习方法主要面临的痛点是,它们通常只关注RTL代码或者其对应的图结构表示(如CDFG)中的一种模态。RTL代码蕴含丰富的语义和功能信息,而CDFG则提供了全面的结构化信息。单独使用任何一种模态都无法充分捕捉RTL设计的完整信息,从而限制了学习到的RTL表示的表达能力和泛化能力。
核心思路:UniRTL的核心思路是融合RTL代码和CDFG这两种互补的模态,从而学习到更全面、更鲁棒的RTL表示。通过联合利用代码的语义信息和CDFG的结构信息,UniRTL能够更好地理解RTL设计的行为和功能。这种多模态融合的方法旨在克服单一模态表示的局限性,提高RTL表示的质量。
技术框架:UniRTL是一个多模态预训练框架,其整体流程包括以下几个主要阶段:1) 图感知分词器预训练:首先,预训练一个图感知的分词器,用于将RTL代码分割成有意义的token序列,并融入图结构信息。2) 文本和代码对齐:利用RTL代码的功能摘要(文本描述)与代码本身进行对齐,学习代码的语义表示。3) 代码和图对齐:通过相互掩码建模(mutual masked modeling)实现代码和CDFG之间的细粒度对齐。4) 联合训练:将代码和图表示进行融合,并通过预训练任务(如掩码语言模型、图节点属性预测等)进行联合训练。
关键创新:UniRTL的关键创新在于其多模态融合的框架和细粒度的对齐策略。与以往只关注单一模态的方法不同,UniRTL同时利用了RTL代码和CDFG的信息,从而学习到更全面的RTL表示。此外,UniRTL还采用了相互掩码建模的方法,实现了代码和图之间的细粒度对齐,从而更好地捕捉了两种模态之间的关联性。
关键设计:UniRTL的关键设计包括:1) 图感知分词器:该分词器能够将RTL代码分割成有意义的token序列,并融入图结构信息,从而更好地捕捉代码的语义。2) 相互掩码建模:通过随机掩盖代码和图中的部分信息,并利用对方的信息进行预测,从而实现代码和图之间的细粒度对齐。3) 分层训练策略:采用分层训练策略,首先对文本和代码进行对齐,然后再将代码和图进行集成,从而更好地利用了不同模态的信息。
🖼️ 关键图片
📊 实验亮点
UniRTL在性能预测和代码检索任务上取得了显著的性能提升。在性能预测任务中,UniRTL相比现有方法取得了X%的性能提升(具体数据未知)。在代码检索任务中,UniRTL也显著优于现有方法,表明其学习到的RTL表示具有更好的表达能力和泛化能力。这些实验结果证明了UniRTL的有效性和优越性。
🎯 应用场景
UniRTL在硬件设计自动化领域具有广泛的应用前景。它可以用于性能预测,帮助设计者在早期阶段评估RTL设计的性能。此外,它还可以用于代码检索,帮助设计者快速找到相似的RTL设计,从而提高设计效率。UniRTL还可以应用于RTL代码的自动生成、验证和优化等任务,加速硬件设计流程,降低设计成本。
📄 摘要(原文)
Developing effective representations for register transfer level (RTL) designs is crucial for accelerating the hardware design workflow. Existing approaches, however, typically rely on a single data modality, either the RTL code or its associated graph-based representation, limiting the expressiveness and generalization ability of the learned representations. For RTL, the control data flow graph (CDFG) offers a comprehensive structural representation that preserves complete information, while the code modality explicitly encodes semantic and functional information. We argue that integrating these complementary modalities is essential for a thorough understanding of RTL designs. To this end, we propose UniRTL, a multimodal pretraining framework that learns unified RTL representations by jointly leveraging code and CDFG. UniRTL achieves fine-grained alignment between code and graph through mutual masked modeling and employs a hierarchical training strategy that incorporates a pretrained graph-aware tokenizer and staged alignment of text (i.e., functional summary) and code prior to graph integration. We evaluate UniRTL on two downstream tasks, performance prediction and code retrieval, under multiple settings. Experimental results show that UniRTL consistently outperforms prior methods, establishing it as a more robust and powerful foundation for advancing hardware design automation.