MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU
作者: Kun Cheng, Songshuo Lu, Sicong Liao, Tankun Li, Yafei Zhang, Dong Yang, Qiheng Lv, Hua Wang, Zhi Chen, Yaohua Tang
分类: cs.CV, cs.CL, cs.LG
发布日期: 2026-06-03
💡 一句话要点
提出MusaCoder以解决GPU内核生成效率低下问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GPU内核生成 全栈训练 强化学习 高性能计算 深度学习优化 Moore Threads 数据合成 模型训练
📋 核心要点
- 现有的大型语言模型在生成高效的GPU内核代码时面临困难,执行基于强化学习的方法也存在稀疏奖励和训练不稳定的问题。
- MusaCoder提出了一种全栈训练框架,结合了内核导向的数据合成、拒绝微调和执行反馈强化学习,以提高内核生成的效率和准确性。
- 实验结果显示,MusaCoder在多个基准测试中超越了强大的开源和专有模型,尤其是27B模型建立了新的最优性能标准。
📝 摘要(中文)
MusaCoder是一种全栈训练框架,旨在将高层张量程序转化为可执行的低层代码,专为Moore Threads GPU设计。现有的大型语言模型在此任务上表现不佳,而基于执行的强化学习则面临稀疏奖励和训练不稳定等问题。MusaCoder通过逐步内核导向数据合成、多样性保持的拒绝微调和执行反馈强化学习等技术,显著提高了内核生成的正确性和速度。实验结果表明,MusaCoder在KernelBench和MUSA移植变体上超越了多个开源和专有基线,展示了其在大型模型训练和优化中的实际应用潜力。
🔬 方法详解
问题定义:本论文旨在解决高层张量程序转化为低层可执行代码的效率低下问题。现有方法在处理此任务时,尤其是大型语言模型,表现不佳,且基于执行的强化学习方法面临稀疏奖励和训练不稳定的挑战。
核心思路:MusaCoder通过全栈训练框架,结合逐步内核导向的数据合成和执行反馈强化学习,旨在提高内核生成的效率和准确性。通过引入多种技术手段,MusaCoder能够有效应对现有方法的不足。
技术框架:MusaCoder的整体架构包括多个模块:逐步内核导向的数据合成、拒绝微调、执行反馈强化学习(通过MooreEval实现),以及用于稳定训练的PrimeEcho、Buffered Dynamic Retry和MirrorPop等技术。
关键创新:MusaCoder的主要创新在于其全栈执行反馈训练方法,特别是在强化学习中引入了多轮奖励机制和动态重试策略,这些设计显著提升了训练的稳定性和生成的内核质量。
关键设计:MusaCoder在参数设置上采用了针对性优化,损失函数设计考虑了内核生成的多样性和准确性,同时网络结构上结合了强化学习和传统编译技术的优势。通过这些设计,MusaCoder能够在复杂的生成任务中取得优异表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MusaCoder在KernelBench和MUSA移植变体上超越了多个强大的开源和专有基线,尤其是9B模型与前沿闭源模型相匹配或超越,而27B模型则建立了新的最优性能标准,展示了全栈执行反馈训练的有效性。
🎯 应用场景
MusaCoder的研究成果在高性能计算、深度学习模型训练和优化等领域具有广泛的应用潜力。其高效的GPU内核生成能力能够为大规模模型的训练提供支持,尤其是在新兴加速器上,推动相关技术的发展与应用。
📄 摘要(原文)
Native GPU kernel generation turns high-level tensor programs into executable, efficient low-level code. Existing Large Language Models (LLMs) struggle with this task, while execution-based reinforcement learning suffers from sparse rewards, reward hacking, and training instability. We present MusaCoder, a full-stack training framework for native GPU kernel generation on CUDA and MUSA backends. MusaCoder combines progressive kernel-oriented data synthesis, diversity-preserving rejection fine-tuning, and execution-feedback Reinforcement Learning (RL) through MooreEval, a distributed verifier and reward environment. To stabilize RL, MusaCoder introduces PrimeEcho for first-turn-anchored multi-turn rewards, Buffered Dynamic Retry for recovering signals from all-failed hard samples, and MirrorPop for off-policy sequence filtering. Experiments on KernelBench and a MUSA-ported variant show that MusaCoder outperforms strong open-source and proprietary baselines in both correctness and empirical speedup, with the 9B model matching or exceeding frontier closed-source models and the 27B model establishing a new state of the art. These results demonstrate not only the effectiveness of full-stack execution-feedback training for native kernel generation, but also the capability of Moore Threads GPUs to support the complete LLM post-training stack, providing a practical foundation for large-model training and optimization on emerging accelerators.