MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

📄 arXiv: 2603.11935v1 📥 PDF

作者: Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang

分类: cs.LG, cs.AI

发布日期: 2026-03-12


💡 一句话要点

MobileKernelBench:评估大语言模型在移动设备上生成高效内核的能力,并提出MoKA解决现有LLM的不足。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动设备 内核生成 大语言模型 多智能体系统 代码生成 性能优化 MobileKernelBench

📋 核心要点

  1. 现有方法难以应对移动框架的工程复杂性和数据稀缺性,导致LLM在移动设备内核生成方面表现不佳,编译失败率高,性能提升有限。
  2. 论文提出Mobile Kernel Agent (MoKA),一个多智能体系统,通过知识库感知推理和计划-执行范例来克服LLM在移动内核生成方面的局限性。
  3. 实验结果表明,MoKA显著提高了编译成功率(93.7%),并使27.4%的生成内核实现了比原生库更快的速度,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLM)在代码生成方面表现出了卓越的能力,但它们在为移动设备生成内核方面的潜力在很大程度上仍未被探索。本文将自动内核生成的范围扩展到移动领域,以研究核心问题:LLM能否为移动设备编写高效的内核?为此,我们引入了MobileKernelBench,这是一个综合评估框架,包含一个优先考虑算子多样性和跨框架互操作性的基准,以及一个弥合主机-设备差距以进行设备上验证的自动化流程。利用该框架,我们对移动神经网络(MNN)的CPU后端进行了广泛的评估,结果表明,当前的LLM难以应对移动框架固有的工程复杂性和数据稀缺性;标准模型甚至微调变体都表现出较高的编译失败率(超过54%),并且由于幻觉和缺乏领域特定的基础,性能提升可以忽略不计。为了克服这些限制,我们提出了Mobile Kernel Agent(MoKA),这是一个配备了知识库感知推理和计划-执行范例的多智能体系统。在MobileKernelBench上验证表明,MoKA实现了最先进的性能,将编译成功率提高到93.7%,并使27.4%的生成内核能够提供比原生库更快的速度。

🔬 方法详解

问题定义:论文旨在解决LLM在移动设备上自动生成高效内核的问题。现有方法,即直接使用LLM生成内核代码,在移动框架的复杂性和数据稀缺性面前表现不佳,导致编译失败率高,生成的内核性能甚至不如原生库。现有LLM缺乏对移动设备底层架构和框架的深入理解,容易产生幻觉,无法生成有效的代码。

核心思路:论文的核心思路是利用多智能体系统,模拟人类专家协同开发内核的过程。每个智能体负责不同的任务,例如代码生成、代码验证、性能评估等。通过知识库感知推理和计划-执行范例,MoKA能够更好地理解移动框架的约束,生成更可靠、更高效的内核代码。

技术框架:MoKA的技术框架是一个多智能体系统,包含以下主要模块:1) Repository-Aware Reasoning Agent: 负责从代码仓库中检索相关信息,为代码生成提供上下文。2) Code Generation Agent: 基于检索到的信息和用户需求,生成内核代码。3) Code Verification Agent: 负责验证生成的代码是否符合语法和语义规则。4) Performance Evaluation Agent: 负责评估生成的代码在移动设备上的性能。这些智能体通过一个共享的知识库进行协作,并采用计划-执行范例来完成任务。

关键创新:MoKA的关键创新在于其多智能体架构和知识库感知推理能力。与传统的单智能体方法相比,MoKA能够更好地分解复杂任务,利用多个智能体的专业知识来提高代码生成的质量和效率。知识库感知推理能力使MoKA能够更好地理解移动框架的约束,避免产生幻觉,生成更可靠的代码。

关键设计:MoKA的关键设计包括:1) 使用代码仓库作为知识库,为代码生成提供上下文信息。2) 采用计划-执行范例,将代码生成过程分解为多个步骤,每个步骤由不同的智能体负责。3) 使用强化学习来优化智能体的行为策略,提高代码生成的效率和质量。4) 设计了专门的损失函数来衡量生成代码的性能,并指导智能体的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoKA在MobileKernelBench上取得了显著的性能提升。MoKA将编译成功率提高到93.7%,远高于现有LLM的水平(低于50%)。此外,MoKA生成的27.4%的内核代码实现了比原生库更快的速度,平均加速幅度为1.27倍。这些结果表明,MoKA能够有效地解决LLM在移动设备内核生成方面面临的挑战。

🎯 应用场景

该研究成果可应用于移动设备上的神经网络加速、图像处理、音视频编解码等领域。通过自动生成高效的内核代码,可以显著提升移动设备的性能和能效,改善用户体验。未来,该技术有望扩展到其他嵌入式设备和异构计算平台。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable capabilities in code generation, yet their potential for generating kernels specifically for mobile de- vices remains largely unexplored. In this work, we extend the scope of automated kernel generation to the mobile domain to investigate the central question: Can LLMs write efficient kernels for mobile devices? To enable systematic investigation, we introduce MobileKernelBench, a comprehensive evaluation framework comprising a benchmark prioritizing operator diversity and cross-framework interoperability, coupled with an automated pipeline that bridges the host-device gap for on-device verification. Leveraging this framework, we conduct extensive evaluation on the CPU backend of Mobile Neural Network (MNN), revealing that current LLMs struggle with the engineering complexity and data scarcity inher-ent to mobile frameworks; standard models and even fine-tuned variants exhibit high compilation failure rates (over 54%) and negligible performance gains due to hallucinations and a lack of domain-specific grounding. To overcome these limitations, we propose the Mobile K ernel A gent (MoKA), a multi-agent system equipped with repository-aware reasoning and a plan-and-execute paradigm.Validated on MobileKernelBench, MoKA achieves state-of-the-art performance, boosting compilation success to 93.7% and enabling 27.4% of generated kernelsto deliver measurable speedups over native libraries.