DeltaZip: Efficient Serving of Multiple Full-Model-Tuned LLMs

作者: Xiaozhe Yao, Qinghao Hu, Ana Klimovic

分类: cs.DC, cs.LG

发布日期: 2023-12-08 (更新: 2025-03-25)

备注: EuroSys 2025'

💡 一句话要点

DeltaZip：高效服务多个全参数微调LLM，压缩模型增量达10倍。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型微调 模型压缩 模型服务 增量学习

📋 核心要点

并发服务多个微调LLM面临挑战，因为不同LLM的请求模式具有零星性、突发性和变化性。
DeltaZip的核心思想是利用微调后模型参数变化的微小性，通过高效压缩模型增量来减少存储和传输开销。
实验表明，DeltaZip在吞吐量方面比现有技术提高了2倍到12倍，证明了其高效性。

📝 摘要（中文）

本文提出DeltaZip，一个LLM服务系统，通过积极压缩模型增量（高达10倍）并在保持高模型质量的同时，高效地并发服务多个全参数微调的LLM。该设计的关键洞察在于，微调导致预训练模型的小幅度变化。通过服务系统与压缩算法的协同设计，DeltaZip实现了比最先进系统高2倍至12倍的吞吐量。

🔬 方法详解

问题定义：现有方法在并发服务多个全参数微调LLM时面临挑战。由于每个LLM都有其独特的请求模式，包括零星的请求、突发流量以及请求频率的变化，因此难以有效地管理和调度资源。传统的服务系统无法充分利用硬件资源，导致吞吐量低，延迟高。

核心思路：DeltaZip的核心思路是利用微调后LLM的参数变化幅度较小的特性。微调通常只对预训练模型进行少量调整，因此微调后的模型与原始模型之间存在高度的相似性。DeltaZip通过压缩这些微小的参数变化（即模型增量），显著减少了存储空间和数据传输量，从而提高了服务效率。

技术框架：DeltaZip的整体架构包含离线压缩和在线服务两个主要阶段。在离线压缩阶段，DeltaZip首先计算微调模型与预训练模型之间的参数差异，然后使用专门设计的压缩算法对这些差异进行压缩。在线服务阶段，DeltaZip根据请求动态加载和解压所需的模型增量，并将其与预训练模型合并，从而生成完整的微调模型进行推理。

关键创新：DeltaZip的关键创新在于其压缩算法与服务系统的协同设计。传统的压缩算法可能无法充分利用LLM微调的特性，导致压缩率不高或解压速度慢。DeltaZip专门针对LLM微调的参数变化模式设计了高效的压缩算法，并将其与服务系统紧密集成，从而实现了更高的吞吐量和更低的延迟。

关键设计：DeltaZip的关键设计包括：1) 一种新的增量压缩算法，该算法利用量化、稀疏化和熵编码等技术来最大限度地压缩模型增量；2) 一种动态加载和解压机制，该机制可以根据请求的需要快速加载和解压所需的模型增量；3) 一种资源调度策略，该策略可以根据不同LLM的请求模式动态分配资源，从而最大限度地提高系统利用率。

📊 实验亮点

实验结果表明，DeltaZip在吞吐量方面比最先进的系统提高了2倍到12倍。具体来说，DeltaZip能够将模型增量压缩高达10倍，同时保持高模型质量。此外，DeltaZip的动态加载和解压机制能够显著降低延迟，从而提高用户体验。

🎯 应用场景

DeltaZip适用于需要并发服务多个微调LLM的场景，例如在线教育、智能客服、个性化推荐等。通过降低模型存储和传输成本，DeltaZip使得在资源受限的环境中部署和运行多个LLM成为可能。未来，DeltaZip可以进一步扩展到支持更广泛的模型类型和应用场景，例如多模态模型和边缘计算。

📄 摘要（原文）

Fine-tuning large language models (LLMs) greatly improves model quality for downstream tasks. However, serving many fine-tuned LLMs concurrently is challenging due to the sporadic, bursty, and varying request patterns of different LLMs. To bridge this gap, we present DeltaZip, an LLM serving system that efficiently serves multiple full-parameter fine-tuned models concurrently by aggressively compressing model deltas by up to 10x while maintaining high model quality. The key insight behind this design is that fine-tuning results in small-magnitude changes to the pre-trained model. By co-designing the serving system with the compression algorithm, DeltaZip achieves 2x to 12x improvement in throughput compared to the state-of-the-art systems.

DeltaZip: Efficient Serving of Multiple Full-Model-Tuned LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册