Efficient Reasoning on the Edge

📄 arXiv: 2603.16867v1 📥 PDF

作者: Yelysei Bondarenko, Thomas Hehn, Rob Hesselink, Romain Lepert, Fabio Valerio Massoli, Evgeny Mironov, Leyla Mirvakhabova, Tribhuvanesh Orekondy, Spyridon Stasis, Andrey Kuzmin, Anna Kuzina, Markus Nagel, Ankita Nayak, Corrado Rainone, Ork de Rooij, Paul N Whatmough, Arash Behboodi, Babak Ehteshami Bejnordi

分类: cs.LG, cs.CL

发布日期: 2026-03-17

备注: Project page: https://qualcomm-ai-research.github.io/llm-reasoning-on-edge/


💡 一句话要点

提出一种轻量级LLM推理方法,通过LoRA适配器和强化学习,实现边缘设备上的高效推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 大型语言模型 LoRA适配器 强化学习 推理优化 移动设备 模型压缩

📋 核心要点

  1. 现有LLM推理方法在边缘设备部署时面临token生成成本高、KV缓存占用大等挑战,效率较低。
  2. 该论文提出使用LoRA适配器结合监督微调,并通过强化学习进行预算强制,以减少响应长度。
  3. 实验表明,该方法在Qwen2.5-7B模型上实现了高效准确的推理,适用于移动场景。

📝 摘要(中文)

大型语言模型(LLM)凭借其思维链推理能力在复杂问题解决任务中取得了最先进的性能,但其冗长的推理过程和庞大的上下文需求使其难以在边缘设备上部署。这些挑战包括高昂的token生成成本、庞大的KV缓存占用以及将推理能力提炼到小型模型中以供移动设备使用时的效率低下。现有方法通常依赖于将大型模型的推理轨迹提炼到较小模型中,这些轨迹冗长且风格重复,这对于设备上的推理是不利的。本文提出了一种轻量级方法,通过LoRA适配器结合监督微调,使小型LLM能够进行推理。我们进一步引入了通过强化学习对这些适配器进行预算强制,从而在最小化精度损失的情况下显著减少响应长度。为了解决内存受限的解码问题,我们利用并行测试时缩放,以较小的延迟增加来提高准确性。最后,我们提出了一种动态适配器切换机制,该机制仅在需要时激活推理,以及一种在提示编码期间的KV缓存共享策略,从而减少了设备上推理的首次token生成时间。在Qwen2.5-7B上的实验表明,我们的方法在严格的资源约束下实现了高效、准确的推理,使LLM推理在移动场景中变得实用。我们的解决方案在移动设备上运行的视频可在我们的项目页面上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在边缘设备上部署时面临的推理效率问题。现有方法,如将大型模型的推理轨迹蒸馏到小型模型,存在冗长、风格重复等问题,不适用于资源受限的边缘设备。

核心思路:论文的核心思路是利用LoRA适配器对小型LLM进行微调,使其具备推理能力,并通过强化学习对适配器进行预算强制,从而减少响应长度。此外,还采用了并行测试时缩放和动态适配器切换等技术,进一步提高推理效率。

技术框架:整体框架包括以下几个主要阶段:1) 使用LoRA适配器对小型LLM进行监督微调,使其具备初步的推理能力;2) 使用强化学习对适配器进行预算强制,减少响应长度;3) 利用并行测试时缩放提高准确性;4) 采用动态适配器切换机制,仅在需要时激活推理;5) 使用KV缓存共享策略,减少首次token生成时间。

关键创新:论文的关键创新在于:1) 提出了一种轻量级的LLM推理方法,适用于资源受限的边缘设备;2) 结合LoRA适配器和强化学习,实现了高效的推理和响应长度控制;3) 提出了动态适配器切换和KV缓存共享等优化策略,进一步提高了推理效率。

关键设计:在LoRA适配器的训练中,使用了监督微调,目标是让小型LLM学习大型模型的推理能力。在强化学习中,设计了一个奖励函数,鼓励模型生成更短的响应,同时保持推理的准确性。动态适配器切换机制根据输入提示的复杂度,动态地激活或禁用推理适配器,以节省计算资源。KV缓存共享策略在提示编码阶段共享KV缓存,减少了重复计算。

📊 实验亮点

该方法在Qwen2.5-7B模型上进行了实验,结果表明,该方法能够在严格的资源约束下实现高效、准确的推理。通过LoRA适配器和强化学习,显著减少了响应长度,同时保持了较高的推理准确率。并行测试时缩放进一步提高了准确性,而动态适配器切换和KV缓存共享则有效降低了延迟。

🎯 应用场景

该研究成果可广泛应用于移动设备、物联网设备等边缘计算场景,例如智能助手、智能家居、自动驾驶等。通过在本地设备上进行高效推理,可以提高响应速度、保护用户隐私,并降低对云端服务器的依赖。未来,该技术有望推动LLM在更多资源受限场景下的应用。

📄 摘要(原文)

Large language models (LLMs) with chain-of-thought reasoning achieve state-of-the-art performance across complex problem-solving tasks, but their verbose reasoning traces and large context requirements make them impractical for edge deployment. These challenges include high token generation costs, large KV-cache footprints, and inefficiencies when distilling reasoning capabilities into smaller models for mobile devices. Existing approaches often rely on distilling reasoning traces from larger models into smaller models, which are verbose and stylistically redundant, undesirable for on-device inference. In this work, we propose a lightweight approach to enable reasoning in small LLMs using LoRA adapters combined with supervised fine-tuning. We further introduce budget forcing via reinforcement learning on these adapters, significantly reducing response length with minimal accuracy loss. To address memory-bound decoding, we exploit parallel test-time scaling, improving accuracy at minor latency increase. Finally, we present a dynamic adapter-switching mechanism that activates reasoning only when needed and a KV-cache sharing strategy during prompt encoding, reducing time-to-first-token for on-device inference. Experiments on Qwen2.5-7B demonstrate that our method achieves efficient, accurate reasoning under strict resource constraints, making LLM reasoning practical for mobile scenarios. Videos demonstrating our solution running on mobile devices are available on our project page.