PassNet: Scaling Large Language Models for Graph Compiler Pass Generation
作者: Yiqun Liu, Yingsheng Wu, Ruqi Yang, Enrong Zheng, Honglei Qiu, Sijun He, Tai Liang, Jingjing Wu, Yuhan Zhou, Yiwei Zhang, Dongyan Chen, Weihan Yi, Xinqi Li, Siqi Bao
分类: cs.AI, cs.LG, cs.PL
发布日期: 2026-05-28
备注: Code and data available at https://github.com/PaddlePaddle/PassNet
💡 一句话要点
PassNet:扩展大型语言模型以生成图编译器Pass,提升长尾工作负载性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 编译器优化 大型语言模型 图编译器 Pass生成 长尾工作负载 自动化优化 深度学习 TorchInductor
📋 核心要点
- 现有编译器在长尾工作负载上存在性能瓶颈,43%的真实子图在默认编译下速度降低。
- PassNet通过LLM生成编译器Pass,实现结构化图转换,直接集成到编译器管道中,优化性能。
- PassNet-Dataset和PassBench的实验表明,LLM在单个子图上可实现高达3倍的加速,提升空间巨大。
📝 摘要(中文)
现代张量编译器(如TorchInductor)在主流模型上实现了显著的加速,但在长尾工作负载上遇到了系统性的性能瓶颈——我们的分析表明,43%的真实子图在默认编译下经历了端到端减速。虽然LLM为自动化优化提供了一条途径,但现有的工作主要集中在独立的内核生成上。我们认为,Pass生成——LLM编写直接集成到编译器管道中的结构化图转换——是更合适的抽象。我们提出了PassNet,这是第一个基于LLM的编译器Pass生成的大规模生态系统,包括:(1)PassNet-Dataset,来自10万个真实世界模型的超过1.8万个独特的计算图;(2)PassBench,200个精选的长尾可融合任务(总共包含2060个子图),在误差感知加速评分(ES_t)下进行评估——该指标统一了正确性、稳定性和性能——并具有分层完整性防御,以防止系统性的LLM利用。实验表明,PassBench具有高度区分性且未饱和:最佳前沿模型在总体上落后于TorchInductor 37%,但在单个子图上,LLM实现了比同一编译器高达3倍的加速——表明瓶颈在于一致性,而不是能力。在仅仅约4K PassNet轨迹上微调一个小模型,产生了2.67倍的改进,接近前沿模型的性能,证明了巨大的提升空间,并验证了PassNet作为推进LLM驱动的编译器优化的实时训练基础设施。
🔬 方法详解
问题定义:论文旨在解决现代张量编译器在长尾工作负载上性能不佳的问题。现有方法主要集中在独立内核生成,缺乏对整个编译器管道的优化,导致许多真实子图在默认编译下性能下降。
核心思路:论文的核心思路是利用大型语言模型(LLM)自动生成编译器Pass,这些Pass能够进行结构化的图转换,并直接集成到编译器管道中。这种方法将优化过程从孤立的内核生成扩展到整个计算图的优化,从而提高整体性能。
技术框架:PassNet生态系统包含两个主要组成部分:PassNet-Dataset和PassBench。PassNet-Dataset包含来自10万个真实世界模型的超过1.8万个独特的计算图,用于训练LLM。PassBench包含200个精选的长尾可融合任务,用于评估LLM生成的Pass的性能。评估指标是误差感知加速评分(ES_t),它综合考虑了正确性、稳定性和性能。
关键创新:PassNet的关键创新在于将LLM应用于编译器Pass的生成,而不是仅仅生成独立的内核。这种方法允许LLM理解和优化整个计算图,从而实现更有效的优化。此外,PassBench的提出提供了一个统一的评估框架,可以综合评估LLM生成的Pass的性能。
关键设计:PassNet-Dataset的设计考虑了真实世界模型的多样性,包含了来自不同领域的计算图。PassBench的设计则侧重于长尾可融合任务,这些任务通常难以通过传统方法进行优化。误差感知加速评分(ES_t)的设计考虑了正确性、稳定性和性能,可以更全面地评估LLM生成的Pass的质量。论文还设计了分层完整性防御,以防止LLM对PassBench进行系统性的利用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PassBench是一个具有高度区分性且未饱和的基准测试。最佳前沿模型在总体上落后于TorchInductor 37%,但在单个子图上,LLM实现了比同一编译器高达3倍的加速。在仅仅约4K PassNet轨迹上微调一个小模型,产生了2.67倍的改进,接近前沿模型的性能,证明了PassNet作为实时训练基础设施的有效性。
🎯 应用场景
PassNet的研究成果可应用于各种深度学习框架和编译器,例如PyTorch、TensorFlow和TorchInductor。通过自动生成优化的编译器Pass,可以显著提高模型在各种硬件平台上的性能,尤其是在长尾工作负载上。这有助于加速AI模型的部署和推理,降低计算成本,并促进AI技术在更广泛领域的应用。
📄 摘要(原文)
Modern tensor compilers such as TorchInductor deliver substantial speedups on mainstream models, yet face a systematic performance ceiling on long-tail workloads -- our profiling shows that 43% of real-world subgraphs experience end-to-end slowdowns under default compilation. While LLMs offer a path toward automated optimization, existing efforts focus on standalone kernel generation. We argue that pass generation -- where LLMs author structured graph transformations that integrate directly into compiler pipelines -- is the more appropriate abstraction. We propose PassNet, the first large-scale ecosystem for LLM-based compiler pass generation, comprising: (1) PassNet-Dataset, over 18K unique computational graphs from 100K real-world models; and (2) PassBench, 200 curated long-tail fusible tasks (comprising 2,060 subgraphs in total) evaluated under the Error-aware Speedup Score (ES_t) -- a metric unifying correctness, stability, and performance -- with layered integrity defenses against systematic LLM exploitation. Experiments reveal that PassBench is both highly discriminative and genuinely unsaturated: the best frontier model trails TorchInductor by 37% in aggregate, yet on individual subgraphs LLMs achieve up to 3x speedup over the same compiler -- indicating that the bottleneck is consistency, not capability. Fine-tuning a small model on merely ~4K PassNet trajectories yields a 2.67x improvement approaching frontier-model performance, demonstrating substantial headroom and validating PassNet as live training infrastructure for advancing LLM-driven compiler optimization. All data, benchmarks, and tooling are publicly available.