Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving
作者: Yuchen Zhang, Hanyue Du, Chun Cao, Jingwei Xu
分类: cs.LG, cs.AI
发布日期: 2025-10-30
备注: 26 pages including 10 pages of main text, 6 figures, 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
🔗 代码/项目: GITHUB
💡 一句话要点
Loquetier:用于统一LLM微调和服务的虚拟化多LoRA框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 参数高效微调 LoRA 模型服务 虚拟化 统一微调和推理 LLM部署
📋 核心要点
- 现有LoRA方法在LLM微调和推理的统一性方面存在不足,难以高效地同时支持两者。
- Loquetier通过虚拟化模块隔离PEFT修改,并优化计算流程,合并微调和推理路径。
- 实验表明,Loquetier在吞吐量和SLO达成率上显著优于现有方法,提升高达3.0倍和46.4倍。
📝 摘要(中文)
低秩适应(LoRA)已成为一种广泛采用的参数高效微调(PEFT)技术,用于将大型语言模型(LLM)适配到下游任务。虽然之前的工作已经探索了整合LLM训练和服务的策略,但在统一基于LoRA的模型的微调和推理方面仍然存在差距。我们提出了Loquetier,一个虚拟化的多LoRA框架,它在单个运行时无缝地集成了LoRA微调和服务。Loquetier引入了两个关键组件:(1)一个虚拟化模块,它隔离了基于PEFT的修改,并支持在共享基础模型上的多个适配器;(2)一个优化的计算流程,其内核设计在正向传播中合并了微调和推理路径,从而实现了高效的批处理并最小化了内核调用开销。在三个任务设置中进行的大量实验表明,Loquetier在性能和灵活性方面始终优于现有的基线,在仅推理任务上实现了高达3.0倍的state-of-the-art协同服务系统的吞吐量,并在统一的微调和推理任务上实现了比PEFT高46.4倍的SLO达成率。Loquetier的实现可在https://github.com/NJUDeepEngine/Loquetier公开获取。
🔬 方法详解
问题定义:现有的大型语言模型微调方法,特别是基于LoRA的方法,在同时进行微调和推理时效率较低。现有的系统通常需要独立的训练和推理流程,导致资源浪费和管理复杂性。痛点在于无法高效地共享底层模型,以及在不同LoRA适配器之间切换的开销。
核心思路:Loquetier的核心思路是通过虚拟化技术隔离不同的LoRA适配器,使得多个适配器可以共享同一个基础模型,从而避免了模型复制的开销。同时,通过优化计算流程,将微调和推理路径合并,减少了内核调用的开销,提高了整体效率。这样设计的目的是为了实现LLM微调和推理的无缝集成,提高资源利用率。
技术框架:Loquetier框架包含两个主要模块:虚拟化模块和优化计算流程。虚拟化模块负责隔离不同的LoRA适配器,并管理它们对基础模型的修改。优化计算流程则通过合并微调和推理路径,减少了内核调用的开销。整体流程包括加载基础模型、加载或训练LoRA适配器、根据请求选择合适的适配器进行推理或微调,并最终返回结果。
关键创新:Loquetier的关键创新在于其虚拟化模块和优化的计算流程。虚拟化模块允许在同一个基础模型上运行多个LoRA适配器,避免了模型复制的开销。优化的计算流程通过合并微调和推理路径,减少了内核调用的开销,提高了整体效率。与现有方法的本质区别在于,Loquetier能够实现LLM微调和推理的无缝集成,而现有方法通常需要独立的训练和推理流程。
关键设计:虚拟化模块的关键设计在于如何隔离不同LoRA适配器的修改,并保证它们之间的互不干扰。这可能涉及到使用特定的数据结构和算法来管理适配器的参数和梯度。优化计算流程的关键设计在于如何合并微调和推理路径,并减少内核调用的开销。这可能涉及到使用特定的内核函数和优化策略来提高计算效率。具体的参数设置、损失函数和网络结构等技术细节在论文中可能有所描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
Loquetier在三个任务设置中始终优于现有基线。在仅推理任务上,Loquetier实现了高达3.0倍的state-of-the-art协同服务系统的吞吐量。在统一的微调和推理任务上,Loquetier实现了比PEFT高46.4倍的SLO达成率。这些结果表明,Loquetier在性能和灵活性方面具有显著优势。
🎯 应用场景
Loquetier适用于需要频繁微调和快速推理的大型语言模型应用场景,例如在线客服、个性化推荐、智能助手等。它可以显著提高资源利用率,降低部署成本,并加速模型迭代周期。未来,Loquetier有望成为LLM高效部署和应用的重要基础设施。
📄 摘要(原文)
Low-Rank Adaptation (LoRA) has become a widely adopted parameter-efficient fine-tuning (PEFT) technique for adapting large language models (LLMs) to downstream tasks. While prior work has explored strategies for integrating LLM training and serving, there still remains a gap in unifying fine-tuning and inference for LoRA-based models. We present Loquetier, a virtualized multi-LoRA framework that seamlessly integrates LoRA fine-tuning and serving within a single runtime. Loquetier introduces two key components: (1) a Virtualized Module that isolates PEFT-based modifications and supports multiple adapters on a shared base model, and (2) an optimized computation flow with a kernel design that merges fine-tuning and inference paths in forward propagation, enabling efficient batching and minimizing kernel invocation overhead. Extensive experiments across three task settings show that Loquetier consistently outperforms existing baselines in both performance and flexibility, achieving up to $3.0\times$ the throughput of the state-of-the-art co-serving system on inference-only tasks and $46.4\times$ higher SLO attainment than PEFT on unified fine-tuning and inference tasks. The implementation of Loquetier is publicly available at https://github.com/NJUDeepEngine/Loquetier.