ServerlessLoRA: Minimizing Latency and Cost in Serverless Inference for LoRA-Based LLMs

📄 arXiv: 2505.14468v1 📥 PDF

作者: Yifan Sui, Hao Wang, Hanfei Yu, Yitao Hu, Jianxun Li, Hao Wang

分类: cs.LG, cs.DC

发布日期: 2025-05-20


💡 一句话要点

ServerlessLoRA:面向LoRA LLM的Serverless推理,降低延迟和成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Serverless计算 LoRA LLM推理 低延迟 成本优化

📋 核心要点

  1. 现有Serverless计算在LoRA LLM推理中存在参数冗余、artifact加载延迟高和资源竞争加剧等问题,导致效率低下。
  2. ServerlessLoRA通过共享backbone LLM、预加载LoRA artifacts和感知竞争的批处理等方法,优化Serverless LoRA LLM推理。
  3. 实验结果表明,ServerlessLoRA相较于现有方案,显著降低了TTFT和经济成本,提升了推理效率。

📝 摘要(中文)

本文提出ServerlessLoRA,一种新型serverless推理系统,旨在更快、更经济地服务于基于LoRA的LLM。现有serverless计算虽然能有效服务通用LLM,但在LoRA推理上存在三个局限:1)函数间存在大量参数冗余,99%的权重被不必要地复制;2)LLM加载之外,artifact加载延迟成本高昂;3)服务多个LoRA LLM时,资源竞争加剧。这些低效导致GPU资源浪费、首个token生成时间(TTFT)增加和经济成本上升。ServerlessLoRA通过安全地在隔离的LoRA函数间共享backbone LLM来减少冗余。设计了一种预加载方法,预先加载全面的LoRA artifacts,以最小化冷启动延迟。此外,ServerlessLoRA采用感知竞争的批处理和卸载,以减轻突发工作负载期间的GPU资源冲突。工业工作负载上的实验表明,与最先进的LLM推理解决方案相比,ServerlessLoRA将TTFT降低高达86%,并将经济成本降低高达89%。

🔬 方法详解

问题定义:论文旨在解决在serverless环境下,使用LoRA进行LLM推理时存在的效率问题。现有serverless方案在处理LoRA模型时,由于每个函数都需要加载完整的LLM backbone,导致大量参数冗余和存储浪费。此外,LoRA artifacts的加载也会引入额外的延迟,影响推理速度。在高并发场景下,多个LoRA模型之间的资源竞争会进一步降低性能。

核心思路:ServerlessLoRA的核心思路是通过共享backbone LLM来减少参数冗余,并采用预加载机制来降低artifact加载延迟。同时,通过感知竞争的批处理和卸载策略,缓解GPU资源竞争,从而提高整体推理效率和降低成本。

技术框架:ServerlessLoRA系统主要包含三个核心模块:1) 安全的backbone LLM共享机制,允许多个LoRA函数安全地访问和共享底层的LLM backbone,避免重复加载;2) LoRA artifacts预加载模块,在函数启动前预先加载LoRA权重和相关配置,减少冷启动延迟;3) 竞争感知的批处理和卸载模块,根据GPU资源使用情况动态调整批处理大小,并在必要时将部分任务卸载到其他可用资源上。

关键创新:ServerlessLoRA的关键创新在于其针对serverless LoRA推理的整体优化方案。与现有方法相比,它不仅关注单个函数的性能,更关注整个系统的资源利用率和并发处理能力。通过共享backbone LLM,极大地减少了参数冗余,降低了存储成本。预加载机制和竞争感知的批处理则有效降低了延迟,提高了吞吐量。

关键设计:在backbone LLM共享方面,采用了安全隔离机制,确保不同LoRA函数之间的数据安全。在预加载方面,设计了高效的artifact存储和加载策略,减少了加载时间。在竞争感知的批处理方面,采用了动态调整批大小的算法,根据GPU利用率和延迟要求进行优化。具体参数设置和损失函数等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ServerlessLoRA在工业工作负载下,相较于最先进的LLM推理解决方案,能够将TTFT降低高达86%,并将经济成本降低高达89%。这些显著的性能提升和成本降低验证了ServerlessLoRA的有效性。

🎯 应用场景

ServerlessLoRA适用于各种需要快速、低成本地部署和扩展LoRA LLM推理服务的场景,例如在线客服、内容生成、代码补全等。该研究成果有助于降低LLM应用门槛,加速LLM在各行业的落地,并为serverless计算在AI领域的应用提供新的思路。

📄 摘要(原文)

Serverless computing has grown rapidly for serving Large Language Model (LLM) inference due to its pay-as-you-go pricing, fine-grained GPU usage, and rapid scaling. However, our analysis reveals that current serverless can effectively serve general LLM but fail with Low-Rank Adaptation (LoRA) inference due to three key limitations: 1) massive parameter redundancy among functions where 99% of weights are unnecessarily duplicated, 2) costly artifact loading latency beyond LLM loading, and 3) magnified resource contention when serving multiple LoRA LLMs. These inefficiencies lead to massive GPU wastage, increased Time-To-First-Token (TTFT), and high monetary costs. We propose ServerlessLoRA, a novel serverless inference system designed for faster and cheaper LoRA LLM serving. ServerlessLoRA enables secure backbone LLM sharing across isolated LoRA functions to reduce redundancy. We design a pre-loading method that pre-loads comprehensive LoRA artifacts to minimize cold-start latency. Furthermore, ServerlessLoRA employs contention aware batching and offloading to mitigate GPU resource conflicts during bursty workloads. Experiment on industrial workloads demonstrates that ServerlessLoRA reduces TTFT by up to 86% and cuts monetary costs by up to 89% compared to state-of-the-art LLM inference solutions.