MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models

作者: Jingwei Xu, Junyu Lai, Yunpeng Huang

分类: cs.CL, cs.AI

发布日期: 2024-05-19 (更新: 2024-10-09)

备注: 26 pages

💡 一句话要点

MeteoRA：面向大语言模型的多任务嵌入式LoRA框架，实现高效自主的任务切换。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 参数高效微调 LoRA 混合专家模型 多任务学习 自主任务切换 模型加速 MoE

📋 核心要点

现有LoRA方法需要预先指定任务，无法在嵌入多个LoRA适配器时自主感知和切换任务。
MeteoRA通过MoE架构集成多个LoRA适配器，并提出加速策略，实现高效的任务切换。
实验表明，MeteoRA在性能上与传统PEFT相当，并在复合任务上表现出更强的适配能力。

📝 摘要（中文）

预训练+微调范式是部署大语言模型（LLMs）的基础。其中，低秩适应（LoRA）以其参数高效微调（PEFT）而著称，产生了大量可重用的特定任务LoRA适配器。然而，这种方法需要明确的任务意图选择，给在单个LLM中嵌入多个现有LoRA适配器时，进行自主任务感知和切换带来了挑战。本文介绍了MeteoRA（多任务嵌入式LoRA），这是一个可扩展且高效的框架，通过全模式混合专家（MoE）架构将多个特定任务的LoRA适配器重用到基础LLM中。该框架还包括新颖的MoE前向加速策略，以解决传统MoE实现的效率挑战。我们的评估使用配备了28个现有LoRA适配器的LlaMA2-13B和LlaMA3-8B基础模型，通过MeteoRA证明了与传统PEFT方法相当的性能。此外，配备MeteoRA的LLM在处理复合任务时表现出卓越的性能，在单次推理中有效解决了十个顺序问题，从而证明了该框架增强的及时适配器切换能力。

🔬 方法详解

问题定义：现有基于LoRA的参数高效微调方法，在实际应用中需要预先明确任务类型，然后选择对应的LoRA适配器。当需要处理多个任务或任务类型未知时，这种方法无法自动选择合适的适配器，限制了其在复杂场景下的应用。此外，直接集成多个LoRA适配器会导致推理效率降低。

核心思路：MeteoRA的核心思路是将多个特定任务的LoRA适配器集成到一个MoE架构中，每个LoRA适配器作为一个“专家”。通过这种方式，模型可以根据输入自动选择合适的专家（即LoRA适配器）来处理不同的任务，从而实现自主的任务切换。同时，论文还提出了MoE前向加速策略，以提高推理效率。

技术框架：MeteoRA框架主要包含以下几个部分：1）基础LLM：作为模型的骨干网络。2）多个LoRA适配器：每个适配器针对一个特定任务进行微调。3）MoE层：将多个LoRA适配器集成在一起，并根据输入动态选择合适的适配器。4）路由网络（Router）：负责根据输入计算每个适配器的权重，决定使用哪些适配器。5）前向加速策略：优化MoE层的计算，提高推理速度。

关键创新：MeteoRA的关键创新在于将MoE架构与LoRA适配器相结合，实现了多任务的自主切换。与传统方法相比，MeteoRA无需预先指定任务类型，可以根据输入自动选择合适的适配器。此外，论文提出的MoE前向加速策略有效地提高了推理效率，解决了传统MoE模型计算量大的问题。

关键设计：MeteoRA的关键设计包括：1）MoE层的具体实现方式，例如使用哪种路由网络、如何计算适配器的权重等。2）前向加速策略的具体实现，例如使用剪枝、量化等技术来减少计算量。3）损失函数的设计，如何平衡不同任务之间的性能。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，MeteoRA在LlaMA2-13B和LlaMA3-8B模型上，使用28个LoRA适配器时，性能与传统PEFT方法相当。更重要的是，在处理复合任务时，MeteoRA表现出更强的能力，能够在单次推理中解决十个顺序问题，证明了其在及时适配器切换方面的优势。这些结果验证了MeteoRA框架的有效性和实用性。

🎯 应用场景

MeteoRA适用于需要处理多种任务的场景，例如智能客服、自动驾驶、机器人等。在这些场景中，模型需要根据不同的输入自动选择合适的技能或知识来完成任务。MeteoRA可以提高模型的灵活性和适应性，使其能够更好地应对复杂多变的环境。该研究有望推动大语言模型在实际应用中的落地。

📄 摘要（原文）

The pretrain+fine-tune paradigm is foundational for deploying large language models (LLMs) across various downstream applications. Within this framework, Low-Rank Adaptation (LoRA) stands out for its parameter-efficient fine-tuning (PEFT), producing numerous reusable task-specific LoRA adapters. However, this approach requires explicit task intention selection, posing challenges for autonomous task sensing and switching during inference with multiple existing LoRA adapters embedded in a single LLM. In this work, we introduce MeteoRA (Multiple-tasks embedded LoRA), a scalable and efficient framework that reuses multiple task-specific LoRA adapters into the base LLM via a full-mode Mixture-of-Experts (MoE) architecture. This framework also includes novel MoE forward acceleration strategies to address the efficiency challenges of traditional MoE implementations. Our evaluation, using the LlaMA2-13B and LlaMA3-8B base models equipped with 28 existing LoRA adapters through MeteoRA, demonstrates equivalent performance with the traditional PEFT method. Moreover, the LLM equipped with MeteoRA achieves superior performance in handling composite tasks, effectively solving ten sequential problems in a single inference pass, thereby demonstrating the framework's enhanced capability for timely adapter switching.