Splitwise: Collaborative Edge-Cloud Inference for LLMs via Lyapunov-Assisted DRL
作者: Abolfazl Younesi, Abbas Shabrang Maryan, Elyas Oustad, Zahra Najafabadi Samani, Mohsen Ansari, Thomas Fahringer
分类: cs.LG, cs.AI, cs.DC, cs.ET, cs.NI
发布日期: 2025-12-29
备注: 11 pages, 9 figures. Accepted by ACM for presentation at UCC '25 (18th International Conference on Utility and Cloud Computing), December 1-4, 2025, France. Proceedings publication pending
💡 一句话要点
Splitwise:基于Lyapunov优化的DRL实现LLM在边缘-云协同推理的自适应切分。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 云计算 大型语言模型 深度强化学习 模型切分
📋 核心要点
- 现有边缘-云 LLM 推理方案难以在延迟、能耗和精度间取得平衡,且无法适应动态网络环境。
- Splitwise 提出基于 Lyapunov 优化的 DRL 框架,实现 LLM 在边缘和云之间的细粒度自适应切分。
- 实验表明,Splitwise 显著降低了端到端延迟和能耗,同时保证了精度和鲁棒性。
📝 摘要(中文)
由于边缘设备内存和算力资源有限,大型语言模型(LLM)的部署面临挑战。完全依赖云端推理虽然减轻了设备负担,但引入了高延迟和高成本。静态的边缘-云划分方案仅优化单一指标,难以应对带宽波动。我们提出了Splitwise,一种新颖的基于Lyapunov优化的深度强化学习(DRL)框架,用于LLM在边缘和云环境之间进行细粒度的自适应划分。Splitwise将Transformer层分解为注意力头和前馈子块,相比于层级划分方案,暴露了更多的划分选择。一个由Lyapunov优化指导的分层DRL策略,在随机工作负载和可变网络带宽下,联合最小化延迟、能耗和精度下降,同时保证队列稳定性。Splitwise还通过具有指数退避恢复的划分检查点来保证通信失败时的鲁棒性。在Jetson Orin NX、Galaxy S23和Raspberry Pi 5上,使用GPT-2 (1.5B)、LLaMA-7B和LLaMA-13B进行的实验表明,与现有的划分器相比,Splitwise将端到端延迟降低了1.4倍-2.8倍,并将能耗降低了高达41%。相对于仅云端执行,它将第95百分位的延迟降低了53-61%,同时保持了精度和适度的内存需求。
🔬 方法详解
问题定义:论文旨在解决在边缘设备上部署大型语言模型(LLM)时,由于资源限制和网络波动导致的高延迟、高能耗和精度下降问题。现有的边缘-云划分方法通常采用静态划分策略,无法适应动态变化的网络带宽和工作负载,并且通常只优化单一指标,难以在延迟、能耗和精度之间取得平衡。
核心思路:论文的核心思路是利用深度强化学习(DRL)来学习一个动态的、细粒度的LLM划分策略,该策略能够根据当前的网络状态和设备资源,自适应地将LLM的不同部分分配到边缘设备和云端执行。通过Lyapunov优化来保证队列的稳定性,从而保证系统的长期性能。这种动态划分策略能够更好地适应变化的网络环境,并在延迟、能耗和精度之间取得更好的平衡。
技术框架:Splitwise 的整体框架包含以下几个主要模块:1) LLM 分解模块:将 Transformer 层分解为更小的单元(注意力头和前馈子块),从而提供更细粒度的划分选择。2) 状态观测模块:收集边缘设备和云端的资源状态、网络带宽等信息,作为 DRL 策略的输入。3) DRL 策略模块:基于 Lyapunov 优化训练的分层 DRL 策略,用于决策 LLM 的划分方案。4) 执行模块:根据 DRL 策略的决策,将 LLM 的不同部分分配到边缘设备和云端执行。5) 故障恢复模块:在通信失败时,通过划分检查点和指数退避恢复机制,保证系统的鲁棒性。
关键创新:Splitwise 的关键创新在于:1) 细粒度的 LLM 划分:将 Transformer 层分解为注意力头和前馈子块,相比于传统的层级划分,提供了更多的划分选择,从而能够更灵活地适应不同的资源和网络条件。2) 基于 Lyapunov 优化的 DRL 策略:利用 Lyapunov 优化来指导 DRL 策略的训练,保证队列的稳定性,从而保证系统的长期性能。3) 鲁棒性设计:通过划分检查点和指数退避恢复机制,提高了系统在通信失败时的鲁棒性。
关键设计:Splitwise 使用分层 DRL 策略,第一层策略决定是否进行划分,第二层策略决定具体的划分方案。Lyapunov 函数用于衡量队列的稳定性,并作为 DRL 策略的奖励函数的一部分。损失函数包括延迟、能耗和精度损失的加权和,权重通过实验调整。网络结构采用 Actor-Critic 结构,Actor 网络输出划分策略,Critic 网络评估策略的价值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Splitwise 在 GPT-2 (1.5B)、LLaMA-7B 和 LLaMA-13B 模型上,相比于现有的划分器,将端到端延迟降低了 1.4 倍-2.8 倍,并将能耗降低了高达 41%。相对于仅云端执行,它将第 95 百分位的延迟降低了 53-61%,同时保持了精度和适度的内存需求。这些结果验证了 Splitwise 在边缘-云协同推理方面的有效性。
🎯 应用场景
Splitwise 有潜力应用于各种需要边缘-云协同推理的场景,例如智能家居、自动驾驶、增强现实等。通过自适应地将 LLM 的计算任务分配到边缘和云端,可以降低延迟、节省能耗,并提高用户体验。该研究对于推动 LLM 在资源受限的边缘设备上的部署具有重要意义。
📄 摘要(原文)
Deploying large language models (LLMs) on edge devices is challenging due to their limited memory and power resources. Cloud-only inference reduces device burden but introduces high latency and cost. Static edge-cloud partitions optimize a single metric and struggle when bandwidth fluctuates. We propose Splitwise, a novel Lyapunov-assisted deep reinforcement learning (DRL) framework for fine-grained, adaptive partitioning of LLMs across edge and cloud environments. Splitwise decomposes transformer layers into attention heads and feed-forward sub-blocks, exposing more partition choices than layer-wise schemes. A hierarchical DRL policy, guided by Lyapunov optimization, jointly minimizes latency, energy consumption, and accuracy degradation while guaranteeing queue stability under stochastic workloads and variable network bandwidth. Splitwise also guarantees robustness via partition checkpoints with exponential backoff recovery in case of communication failures. Experiments on Jetson Orin NX, Galaxy S23, and Raspberry Pi 5 with GPT-2 (1.5B), LLaMA-7B, and LLaMA-13B show that Splitwise reduces end-to-end latency by 1.4x-2.8x and cuts energy consumption by up to 41% compared with existing partitioners. It lowers the 95th-percentile latency by 53-61% relative to cloud-only execution, while maintaining accuracy and modest memory requirements.