Jupiter: Fast and Resource-Efficient Collaborative Inference of Generative LLMs on Edge Devices
作者: Shengyuan Ye, Bei Ouyang, Liekang Zeng, Tianyi Qian, Xiaowen Chu, Jian Tang, Xu Chen
分类: cs.DC, cs.AI, cs.NI
发布日期: 2025-04-11
备注: Accepted by IEEE International Conference on Computer Communications 2025
💡 一句话要点
Jupiter:面向生成式LLM的快速、资源高效的边缘设备协同推理系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 大型语言模型 协同推理 流水线并行 推测解码 资源优化 低延迟推理
📋 核心要点
- 现有边缘计算方案在LLM推理中面临通信开销大、资源利用率低的问题,且主要关注预填充阶段的优化,忽略了自回归解码阶段。
- Jupiter提出一种灵活的流水线架构,针对预填充阶段采用序列内流水线并行和细致的并行规划,针对解码阶段采用基于轮廓的流水线并行解码和推测解码。
- 实验结果表明,Jupiter在各种边缘环境设置下,相比现有方法,端到端延迟降低高达26.1倍,同时保持了相当的生成质量。
📝 摘要(中文)
生成式大型语言模型(LLM)因其在各种AI任务中的卓越能力而备受关注。传统上,LLM部署在云数据中心,但现在越来越多地转向更易于访问的边缘平台,以保护敏感用户数据并确保隐私。然而,单个边缘设备有限的计算资源可能导致过长的推理延迟和过高的内存使用。现有研究探索了协同边缘计算来突破单个设备的资源限制,但这些解决方案仍然存在巨大的通信开销和边缘资源利用不足的问题。此外,它们只专注于优化预填充阶段,而忽略了生成式LLM的关键自回归解码阶段。为了解决这些问题,我们提出了Jupiter,一个快速、可扩展且资源高效的协同边缘AI系统,用于生成式LLM推理。Jupiter引入了一种灵活的流水线架构作为原则,并根据预填充和解码阶段的不同特性来区分其系统设计。对于预填充阶段,Jupiter提出了一种新颖的序列内流水线并行性,并开发了一种细致的并行性规划策略,以最大限度地提高资源效率;对于解码阶段,Jupiter设计了一种有效的基于轮廓的流水线并行解码机制,结合推测解码,进一步放大了推理加速效果。基于实际实现的广泛评估表明,在各种边缘环境设置下,Jupiter显著优于最先进的方法,实现了高达26.1倍的端到端延迟降低,同时保持了相当的生成质量。
🔬 方法详解
问题定义:论文旨在解决在资源受限的边缘设备上高效运行生成式LLM的问题。现有方法,如直接在单个边缘设备上运行LLM,会导致推理延迟过高和内存溢出。而现有的协同边缘计算方案,虽然能突破单个设备的资源限制,但存在通信开销大、边缘资源利用率低,以及忽略自回归解码阶段优化的问题。
核心思路:论文的核心思路是利用边缘设备的协同计算能力,通过流水线并行的方式,将LLM推理任务分解到多个设备上执行,从而降低单个设备的计算和内存负担,并提高整体推理速度。针对LLM推理的不同阶段(预填充和解码),采用不同的并行策略和优化方法。
技术框架:Jupiter系统包含预填充阶段和解码阶段。在预填充阶段,采用序列内流水线并行,将输入序列分割成多个片段,分配给不同的边缘设备并行处理。同时,设计了并行规划策略,优化任务分配,提高资源利用率。在解码阶段,采用基于轮廓的流水线并行解码机制,结合推测解码,加速自回归解码过程。整体架构是一个灵活的流水线,可以根据边缘设备的资源情况进行调整。
关键创新:论文的关键创新在于针对生成式LLM推理的特点,提出了序列内流水线并行和基于轮廓的流水线并行解码机制。序列内流水线并行充分利用了预填充阶段的并行性,而基于轮廓的流水线并行解码则针对自回归解码的特点,通过预测可能的输出轮廓来加速解码过程。与现有方法相比,Jupiter更加关注边缘设备的资源限制和通信开销,并针对性地进行了优化。
关键设计:在预填充阶段,并行规划策略需要考虑不同边缘设备的计算能力和通信带宽,以实现最佳的任务分配。在解码阶段,轮廓预测的准确性直接影响解码速度,因此需要设计有效的轮廓预测模型。此外,推测解码的参数设置,如推测的token数量,也需要根据具体应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Jupiter在各种边缘环境设置下,显著优于现有方法。例如,在某个特定配置下,Jupiter实现了高达26.1倍的端到端延迟降低,同时保持了与现有方法相当的生成质量。此外,实验还验证了Jupiter在不同边缘设备数量和网络带宽下的可扩展性和鲁棒性。
🎯 应用场景
Jupiter可应用于各种需要低延迟、高隐私的生成式LLM应用场景,例如:智能助手、本地化机器翻译、内容创作、个性化推荐等。通过将LLM推理部署在边缘设备上,可以减少对云服务器的依赖,降低网络延迟,保护用户数据隐私,并支持离线推理。未来,该技术有望推动LLM在更多资源受限的场景下的应用。
📄 摘要(原文)
Generative large language models (LLMs) have garnered significant attention due to their exceptional capabilities in various AI tasks. Traditionally deployed in cloud datacenters, LLMs are now increasingly moving towards more accessible edge platforms to protect sensitive user data and ensure privacy preservation. The limited computational resources of individual edge devices, however, can result in excessively prolonged inference latency and overwhelmed memory usage. While existing research has explored collaborative edge computing to break the resource wall of individual devices, these solutions yet suffer from massive communication overhead and under-utilization of edge resources. Furthermore, they focus exclusively on optimizing the prefill phase, neglecting the crucial autoregressive decoding phase for generative LLMs. To address that, we propose Jupiter, a fast, scalable, and resource-efficient collaborative edge AI system for generative LLM inference. Jupiter introduces a flexible pipelined architecture as a principle and differentiates its system design according to the differentiated characteristics of the prefill and decoding phases. For prefill phase, Jupiter submits a novel intra-sequence pipeline parallelism and develops a meticulous parallelism planning strategy to maximize resource efficiency; For decoding, Jupiter devises an effective outline-based pipeline parallel decoding mechanism combined with speculative decoding, which further magnifies inference acceleration. Extensive evaluation based on realistic implementation demonstrates that Jupiter remarkably outperforms state-of-the-art approaches under various edge environment setups, achieving up to 26.1x end-to-end latency reduction while rendering on-par generation quality.