PassNet: Scaling Large Language Models for Graph Compiler Pass Generation

作者: Yiqun Liu, Yingsheng Wu, Ruqi Yang, Enrong Zheng, Honglei Qiu, Sijun He, Tai Liang, Jingjing Wu, Yuhan Zhou, Yiwei Zhang, Dongyan Chen, Weihan Yi, Xinqi Li, Siqi Bao

分类: cs.AI, cs.LG, cs.PL

发布日期: 2026-05-28

备注: Code and data available at https://github.com/PaddlePaddle/PassNet

💡 一句话要点

PassNet：扩展大型语言模型以生成图编译器Pass，提升长尾工作负载性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 编译器优化 大型语言模型 图编译器 Pass生成 长尾工作负载 自动化优化 深度学习 TorchInductor

📋 核心要点

现有编译器在长尾工作负载上存在性能瓶颈，43%的真实子图在默认编译下速度降低。
PassNet通过LLM生成编译器Pass，实现结构化图转换，直接集成到编译器管道中，优化性能。
PassNet-Dataset和PassBench的实验表明，LLM在单个子图上可实现高达3倍的加速，提升空间巨大。

📝 摘要（中文）

现代张量编译器（如TorchInductor）在主流模型上实现了显著的加速，但在长尾工作负载上遇到了系统性的性能瓶颈——我们的分析表明，43%的真实子图在默认编译下经历了端到端减速。虽然LLM为自动化优化提供了一条途径，但现有的工作主要集中在独立的内核生成上。我们认为，Pass生成——LLM编写直接集成到编译器管道中的结构化图转换——是更合适的抽象。我们提出了PassNet，这是第一个基于LLM的编译器Pass生成的大规模生态系统，包括：（1）PassNet-Dataset，来自10万个真实世界模型的超过1.8万个独特的计算图；（2）PassBench，200个精选的长尾可融合任务（总共包含2060个子图），在误差感知加速评分（ES_t）下进行评估——该指标统一了正确性、稳定性和性能——并具有分层完整性防御，以防止系统性的LLM利用。实验表明，PassBench具有高度区分性且未饱和：最佳前沿模型在总体上落后于TorchInductor 37%，但在单个子图上，LLM实现了比同一编译器高达3倍的加速——表明瓶颈在于一致性，而不是能力。在仅仅约4K PassNet轨迹上微调一个小模型，产生了2.67倍的改进，接近前沿模型的性能，证明了巨大的提升空间，并验证了PassNet作为推进LLM驱动的编译器优化的实时训练基础设施。

🔬 方法详解

问题定义：论文旨在解决现代张量编译器在长尾工作负载上性能不佳的问题。现有方法主要集中在独立内核生成，缺乏对整个编译器管道的优化，导致许多真实子图在默认编译下性能下降。

核心思路：论文的核心思路是利用大型语言模型（LLM）自动生成编译器Pass，这些Pass能够进行结构化的图转换，并直接集成到编译器管道中。这种方法将优化过程从孤立的内核生成扩展到整个计算图的优化，从而提高整体性能。

技术框架：PassNet生态系统包含两个主要组成部分：PassNet-Dataset和PassBench。PassNet-Dataset包含来自10万个真实世界模型的超过1.8万个独特的计算图，用于训练LLM。PassBench包含200个精选的长尾可融合任务，用于评估LLM生成的Pass的性能。评估指标是误差感知加速评分（ES_t），它综合考虑了正确性、稳定性和性能。

关键创新：PassNet的关键创新在于将LLM应用于编译器Pass的生成，而不是仅仅生成独立的内核。这种方法允许LLM理解和优化整个计算图，从而实现更有效的优化。此外，PassBench的提出提供了一个统一的评估框架，可以综合评估LLM生成的Pass的性能。

关键设计：PassNet-Dataset的设计考虑了真实世界模型的多样性，包含了来自不同领域的计算图。PassBench的设计则侧重于长尾可融合任务，这些任务通常难以通过传统方法进行优化。误差感知加速评分（ES_t）的设计考虑了正确性、稳定性和性能，可以更全面地评估LLM生成的Pass的质量。论文还设计了分层完整性防御，以防止LLM对PassBench进行系统性的利用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PassBench是一个具有高度区分性且未饱和的基准测试。最佳前沿模型在总体上落后于TorchInductor 37%，但在单个子图上，LLM实现了比同一编译器高达3倍的加速。在仅仅约4K PassNet轨迹上微调一个小模型，产生了2.67倍的改进，接近前沿模型的性能，证明了PassNet作为实时训练基础设施的有效性。

🎯 应用场景

PassNet的研究成果可应用于各种深度学习框架和编译器，例如PyTorch、TensorFlow和TorchInductor。通过自动生成优化的编译器Pass，可以显著提高模型在各种硬件平台上的性能，尤其是在长尾工作负载上。这有助于加速AI模型的部署和推理，降低计算成本，并促进AI技术在更广泛领域的应用。

📄 摘要（原文）

Modern tensor compilers such as TorchInductor deliver substantial speedups on mainstream models, yet face a systematic performance ceiling on long-tail workloads -- our profiling shows that 43% of real-world subgraphs experience end-to-end slowdowns under default compilation. While LLMs offer a path toward automated optimization, existing efforts focus on standalone kernel generation. We argue that pass generation -- where LLMs author structured graph transformations that integrate directly into compiler pipelines -- is the more appropriate abstraction. We propose PassNet, the first large-scale ecosystem for LLM-based compiler pass generation, comprising: (1) PassNet-Dataset, over 18K unique computational graphs from 100K real-world models; and (2) PassBench, 200 curated long-tail fusible tasks (comprising 2,060 subgraphs in total) evaluated under the Error-aware Speedup Score (ES_t) -- a metric unifying correctness, stability, and performance -- with layered integrity defenses against systematic LLM exploitation. Experiments reveal that PassBench is both highly discriminative and genuinely unsaturated: the best frontier model trails TorchInductor by 37% in aggregate, yet on individual subgraphs LLMs achieve up to 3x speedup over the same compiler -- indicating that the bottleneck is consistency, not capability. Fine-tuning a small model on merely ~4K PassNet trajectories yields a 2.67x improvement approaching frontier-model performance, demonstrating substantial headroom and validating PassNet as live training infrastructure for advancing LLM-driven compiler optimization. All data, benchmarks, and tooling are publicly available.

PassNet: Scaling Large Language Models for Graph Compiler Pass Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理