Scaling LLM Test-Time Compute with Mobile NPU on Smartphones

📄 arXiv: 2509.23324v1 📥 PDF

作者: Zixu Hao, Jianyu Wei, Tuowei Wang, Minxing Huang, Huiqiang Jiang, Shiqi Jiang, Ting Cao, Ju Ren

分类: cs.DC, cs.AI

发布日期: 2025-09-27


💡 一句话要点

提出面向移动NPU的LLM测试时并行扩展方法,提升小模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动NPU 大型语言模型 测试时扩展 模型量化 硬件感知 推理加速 低资源部署

📋 核心要点

  1. 现有移动端LLM部署面临小模型性能不足、大模型资源消耗过高的难题,NPU计算资源未被充分利用。
  2. 提出并行测试时扩展技术,结合硬件感知分块量化和LUT优化,充分利用NPU矩阵乘法单元。
  3. 实验表明,该方法显著加速推理过程,使小模型在精度上可媲美甚至超越大模型。

📝 摘要(中文)

本文探讨了在移动设备上部署大型语言模型(LLM)所面临的挑战,即小模型性能不足和大模型资源消耗过高。研究发现,在典型的LLM推理过程中,移动神经处理单元(NPU)的计算资源,特别是其矩阵乘法单元,并未得到充分利用。为了利用这些未被充分利用的计算能力,本文提出在移动NPU上应用并行测试时扩展技术,以提高较小LLM的性能。然而,这种方法面临NPU固有的挑战,包括对细粒度量化的硬件支持不足以及通用计算效率低下。为了克服这些问题,本文引入了两项关键技术:一种硬件感知的分块量化方案,使组量化与NPU内存访问模式对齐;以及基于LUT的高效替换方案,用于替代诸如Softmax和反量化等复杂操作。设计并实现了一个端到端的推理系统,该系统利用NPU的计算能力来支持高通骁龙平台上的测试时扩展。实验表明,该方法带来了显著的加速:混合精度GEMM高达19.0倍,Softmax高达2.2倍。更重要的是,证明了使用测试时扩展的较小模型可以匹配或超过较大模型的准确性,从而实现了新的性能-成本帕累托前沿。

🔬 方法详解

问题定义:论文旨在解决在移动设备上部署LLM时,小模型性能不足而大模型资源消耗过高的问题。现有的移动端LLM推理方法难以充分利用NPU的计算能力,特别是矩阵乘法单元的算力,导致推理效率低下。

核心思路:论文的核心思路是利用测试时扩展技术,通过并行计算来提升小模型的性能,使其达到甚至超过大模型的精度。关键在于充分挖掘和利用移动NPU中未被充分利用的计算资源,并克服NPU硬件的限制。

技术框架:该论文构建了一个端到端的推理系统,主要包含以下几个阶段:1) 模型量化:采用硬件感知的分块量化方案,将模型参数量化为较低精度,以适应NPU的硬件特性。2) 并行计算:利用NPU的并行计算能力,对量化后的模型进行并行推理。3) 操作优化:使用基于LUT的替换方案,优化Softmax和反量化等复杂操作,提高计算效率。4) 部署与推理:将优化后的模型部署到高通骁龙平台的NPU上进行推理。

关键创新:论文的关键创新在于:1) 提出了硬件感知的分块量化方案,该方案与NPU的内存访问模式对齐,提高了量化效率。2) 使用基于LUT的替换方案,优化了Softmax和反量化等复杂操作,显著提高了计算速度。3) 将测试时扩展技术应用于移动NPU,充分利用了NPU的并行计算能力。

关键设计:硬件感知的分块量化方案的关键在于根据NPU的内存访问模式,将模型参数划分为不同的块,并对每个块进行量化。基于LUT的替换方案的关键在于预先计算Softmax和反量化的结果,并将其存储在LUT中,在推理时直接查表获取结果,避免了复杂的计算过程。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

📊 实验亮点

实验结果表明,该方法在混合精度GEMM上实现了高达19.0倍的加速,在Softmax操作上实现了高达2.2倍的加速。更重要的是,使用测试时扩展的较小模型可以匹配或超过较大模型的准确性,实现了新的性能-成本帕累托前沿。这些结果验证了该方法在提升移动端LLM推理效率方面的有效性。

🎯 应用场景

该研究成果可广泛应用于移动设备上的LLM部署,例如智能助手、机器翻译、文本摘要等。通过提升小模型的性能,降低资源消耗,使得在资源受限的移动设备上运行复杂的LLM成为可能,从而改善用户体验,并推动移动人工智能的发展。

📄 摘要(原文)

Deploying Large Language Models (LLMs) on mobile devices faces the challenge of insufficient performance in smaller models and excessive resource consumption in larger ones. This paper highlights that mobile Neural Processing Units (NPUs) have underutilized computational resources, particularly their matrix multiplication units, during typical LLM inference. To leverage this wasted compute capacity, we propose applying parallel test-time scaling techniques on mobile NPUs to enhance the performance of smaller LLMs. However, this approach confronts inherent NPU challenges, including inadequate hardware support for fine-grained quantization and low efficiency in general-purpose computations. To overcome these, we introduce two key techniques: a hardware-aware tile quantization scheme that aligns group quantization with NPU memory access patterns, and efficient LUT-based replacements for complex operations such as Softmax and dequantization. We design and implement an end-to-end inference system that leverages the NPU's compute capability to support test-time scaling on Qualcomm Snapdragon platforms. Experiments show our approach brings significant speedups: up to 19.0 for mixed-precision GEMM and 2.2 for Softmax. More importantly, we demonstrate that smaller models using test-time scaling can match or exceed the accuracy of larger models, achieving a new performance-cost Pareto frontier.