CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
作者: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
分类: cs.LG, cs.AI
发布日期: 2026-02-27
💡 一句话要点
提出CUDA Agent,通过大规模Agent强化学习生成高性能CUDA内核。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CUDA内核生成 强化学习 GPU优化 代码生成 Agent 深度学习 KernelBench
📋 核心要点
- 现有CUDA代码生成方法未能有效提升模型固有的CUDA优化能力,导致性能提升受限。
- CUDA Agent通过可扩展的数据合成、技能增强的开发环境和强化学习算法,提升CUDA内核生成能力。
- 实验表明,CUDA Agent在KernelBench上超越torch.compile和专有模型,性能显著提升。
📝 摘要(中文)
GPU内核优化是现代深度学习的基础,但仍然是一项高度专业化的任务,需要深厚的硬件专业知识。尽管大型语言模型(LLM)在通用编程方面表现出色,但在CUDA内核生成方面,与基于编译器的系统(如torch.compile)相比,仍然缺乏竞争力。现有的CUDA代码生成方法要么依赖于免训练的优化,要么在固定的多轮执行-反馈循环中微调模型,但两种范式都未能从根本上提高模型固有的CUDA优化能力,导致性能提升有限。我们提出了CUDA Agent,一个大规模的Agent强化学习系统,通过三个组成部分来发展CUDA内核专业知识:可扩展的数据合成管道,具有自动验证和分析的技能增强型CUDA开发环境,以提供可靠的奖励信号,以及实现稳定训练的强化学习算法技术。CUDA Agent在KernelBench上取得了最先进的结果,在KernelBench Level-1、Level-2和Level-3拆分上,比torch.compile快100%、100%和92%,在最难的Level-3设置上,比最强大的专有模型(如Claude Opus 4.5和Gemini 3 Pro)高出约40%。
🔬 方法详解
问题定义:现有CUDA内核生成方法,如基于LLM的微调或免训练优化,无法充分利用LLM的潜力,在性能上与torch.compile等编译器相比仍有差距。这些方法缺乏对CUDA硬件的深入理解和优化能力,难以生成高性能的内核代码。
核心思路:CUDA Agent的核心思路是将CUDA内核生成视为一个强化学习任务,通过Agent与环境的交互,不断学习和优化CUDA代码。Agent通过试错和奖励反馈,逐步掌握CUDA编程的技巧和硬件特性,从而生成更高效的内核代码。
技术框架:CUDA Agent包含三个主要组成部分:(1) 可扩展的数据合成管道,用于生成大量的训练数据;(2) 技能增强型CUDA开发环境,提供自动验证和性能分析,为Agent提供可靠的奖励信号;(3) 强化学习算法,用于训练Agent,使其能够生成高性能的CUDA内核代码。整体流程是Agent生成CUDA代码,开发环境验证代码并进行性能分析,然后将性能数据作为奖励信号反馈给Agent,Agent根据奖励信号调整策略,生成更好的代码。
关键创新:CUDA Agent的关键创新在于将强化学习应用于CUDA内核生成,并设计了专门的数据合成管道和技能增强型开发环境。与传统的基于规则或模板的方法不同,CUDA Agent能够通过学习自动优化CUDA代码,从而获得更高的性能。此外,Agent的设计使其能够适应不同的硬件平台和优化目标。
关键设计:数据合成管道用于生成各种CUDA内核代码的示例,包括不同的算法、数据类型和硬件配置。技能增强型开发环境集成了CUDA编译器、调试器和性能分析工具,能够自动验证代码的正确性并测量其性能。强化学习算法采用Actor-Critic架构,Actor负责生成CUDA代码,Critic负责评估代码的性能。奖励函数基于代码的执行时间和资源利用率,鼓励Agent生成更高效的代码。具体参数设置和网络结构未知。
🖼️ 关键图片
📊 实验亮点
CUDA Agent在KernelBench上取得了显著的性能提升。在Level-1、Level-2和Level-3拆分上,分别比torch.compile快100%、100%和92%。在最难的Level-3设置上,比Claude Opus 4.5和Gemini 3 Pro等专有模型高出约40%。这些结果表明,CUDA Agent能够有效地生成高性能的CUDA内核代码。
🎯 应用场景
CUDA Agent可应用于各种需要高性能计算的领域,如深度学习、科学计算、图像处理等。通过自动生成优化的CUDA内核,可以显著提升应用程序的性能,降低计算成本,并加速新算法的开发和部署。该研究有望推动GPU计算的普及和发展。
📄 摘要(原文)
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.