CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

作者: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou

分类: cs.LG, cs.AI

发布日期: 2026-02-27

💡 一句话要点

提出CUDA Agent，通过大规模Agent强化学习生成高性能CUDA内核。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: CUDA内核生成 强化学习 GPU优化 代码生成 Agent 深度学习 KernelBench

📋 核心要点

现有CUDA代码生成方法未能有效提升模型固有的CUDA优化能力，导致性能提升受限。
CUDA Agent通过可扩展的数据合成、技能增强的开发环境和强化学习算法，提升CUDA内核生成能力。
实验表明，CUDA Agent在KernelBench上超越torch.compile和专有模型，性能显著提升。

📝 摘要（中文）

GPU内核优化是现代深度学习的基础，但仍然是一项高度专业化的任务，需要深厚的硬件专业知识。尽管大型语言模型（LLM）在通用编程方面表现出色，但在CUDA内核生成方面，与基于编译器的系统（如torch.compile）相比，仍然缺乏竞争力。现有的CUDA代码生成方法要么依赖于免训练的优化，要么在固定的多轮执行-反馈循环中微调模型，但两种范式都未能从根本上提高模型固有的CUDA优化能力，导致性能提升有限。我们提出了CUDA Agent，一个大规模的Agent强化学习系统，通过三个组成部分来发展CUDA内核专业知识：可扩展的数据合成管道，具有自动验证和分析的技能增强型CUDA开发环境，以提供可靠的奖励信号，以及实现稳定训练的强化学习算法技术。CUDA Agent在KernelBench上取得了最先进的结果，在KernelBench Level-1、Level-2和Level-3拆分上，比torch.compile快100%、100%和92%，在最难的Level-3设置上，比最强大的专有模型（如Claude Opus 4.5和Gemini 3 Pro）高出约40%。

🔬 方法详解

问题定义：现有CUDA内核生成方法，如基于LLM的微调或免训练优化，无法充分利用LLM的潜力，在性能上与torch.compile等编译器相比仍有差距。这些方法缺乏对CUDA硬件的深入理解和优化能力，难以生成高性能的内核代码。

核心思路：CUDA Agent的核心思路是将CUDA内核生成视为一个强化学习任务，通过Agent与环境的交互，不断学习和优化CUDA代码。Agent通过试错和奖励反馈，逐步掌握CUDA编程的技巧和硬件特性，从而生成更高效的内核代码。

技术框架：CUDA Agent包含三个主要组成部分：(1) 可扩展的数据合成管道，用于生成大量的训练数据；(2) 技能增强型CUDA开发环境，提供自动验证和性能分析，为Agent提供可靠的奖励信号；(3) 强化学习算法，用于训练Agent，使其能够生成高性能的CUDA内核代码。整体流程是Agent生成CUDA代码，开发环境验证代码并进行性能分析，然后将性能数据作为奖励信号反馈给Agent，Agent根据奖励信号调整策略，生成更好的代码。

关键创新：CUDA Agent的关键创新在于将强化学习应用于CUDA内核生成，并设计了专门的数据合成管道和技能增强型开发环境。与传统的基于规则或模板的方法不同，CUDA Agent能够通过学习自动优化CUDA代码，从而获得更高的性能。此外，Agent的设计使其能够适应不同的硬件平台和优化目标。

关键设计：数据合成管道用于生成各种CUDA内核代码的示例，包括不同的算法、数据类型和硬件配置。技能增强型开发环境集成了CUDA编译器、调试器和性能分析工具，能够自动验证代码的正确性并测量其性能。强化学习算法采用Actor-Critic架构，Actor负责生成CUDA代码，Critic负责评估代码的性能。奖励函数基于代码的执行时间和资源利用率，鼓励Agent生成更高效的代码。具体参数设置和网络结构未知。

🖼️ 关键图片

📊 实验亮点

CUDA Agent在KernelBench上取得了显著的性能提升。在Level-1、Level-2和Level-3拆分上，分别比torch.compile快100%、100%和92%。在最难的Level-3设置上，比Claude Opus 4.5和Gemini 3 Pro等专有模型高出约40%。这些结果表明，CUDA Agent能够有效地生成高性能的CUDA内核代码。

🎯 应用场景

CUDA Agent可应用于各种需要高性能计算的领域，如深度学习、科学计算、图像处理等。通过自动生成优化的CUDA内核，可以显著提升应用程序的性能，降低计算成本，并加速新算法的开发和部署。该研究有望推动GPU计算的普及和发展。

📄 摘要（原文）

GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理