3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability
作者: Baohao Liao, Christof Monz
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-08-28 (更新: 2024-11-04)
备注: Accepted to NeurIPS 2024. Code: https://github.com/BaohaoLiao/road
💡 一句话要点
提出RoAd:一种基于2D旋转的参数高效微调方法,提升效率、批量处理能力和可组合性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 大型语言模型 2D旋转 模型适配 批量处理 可解释性 分布式交换干预 RoAd
📋 核心要点
- 现有参数高效微调方法在部署多个适配器时效率较低,尤其是在同一批次内需要不同适配器的情况下。
- RoAd方法利用2D旋转来适配LLM,旨在提高参数效率、批量处理能力和可组合性,从而解决上述问题。
- 实验结果表明,RoAd在多个任务上以极少的参数实现了最佳性能,并提升了LLM的可解释性。
📝 摘要(中文)
参数高效微调(PEFT)方法能够有效地将大型语言模型(LLM)适配到各种下游任务,从而降低存储和GPU内存需求。尽管PEFT具有这些优势,但在某些应用中,它面临着参数效率之外的新挑战。一个显著的挑战是,如何高效地部署配备多个任务或用户特定适配器的LLM,尤其是在同一批次内的不同请求需要不同的适配器时。另一个挑战是LLM的可解释性,这对于理解LLM的工作方式至关重要。之前的研究提出了各种方法来应对不同的挑战。在本文中,我们介绍了一种新方法RoAd,它采用简单的2D旋转来适配LLM,并解决了上述所有挑战:(1)RoAd具有显著的参数效率,在GLUE、八个常识推理任务和四个算术推理任务上,以<0.1%的可训练参数实现了最佳性能;(2)RoAd有助于高效地服务于同一批次内需要不同适配器的请求,其开销与元素级乘法相当,而不是批量矩阵乘法;(3)RoAd通过集成到分布式交换干预框架中,增强了LLM的可解释性,并通过组合实验进行了演示。
🔬 方法详解
问题定义:现有参数高效微调方法(PEFT)在实际部署中面临挑战,尤其是在需要为同一批次内的不同请求应用不同适配器时,效率会显著降低。此外,大型语言模型(LLM)的可解释性仍然是一个重要问题,限制了我们对模型行为的理解和控制。
核心思路:RoAd的核心思路是利用一个简单的2D旋转操作来适配LLM。通过将旋转操作融入到模型的参数中,RoAd能够在保持参数高效性的同时,实现对不同任务或用户的个性化适配。这种方法的设计旨在降低计算复杂度,从而提高批量处理效率,并为模型的可解释性提供新的视角。
技术框架:RoAd方法主要包含以下几个关键步骤:首先,选择LLM中的特定层进行适配。然后,在这些层中引入一个2D旋转矩阵。这个旋转矩阵通过可训练的参数进行控制,从而实现对模型行为的微调。在推理阶段,根据不同的任务或用户需求,选择不同的旋转角度,从而实现个性化的模型输出。RoAd还可以与分布式交换干预框架集成,以增强模型的可解释性。
关键创新:RoAd最重要的技术创新点在于其利用2D旋转操作进行参数高效微调。与传统的PEFT方法相比,RoAd的参数效率更高,计算复杂度更低,并且能够更好地支持批量处理和模型可解释性。RoAd通过简单的旋转操作实现了对模型行为的精细控制,从而在参数效率、计算效率和可解释性之间取得了良好的平衡。
关键设计:RoAd的关键设计包括:(1) 旋转矩阵的初始化策略,以确保模型在训练初期具有良好的性能;(2) 旋转角度的学习率和优化策略,以避免过拟合和梯度消失问题;(3) 适配层的选择策略,以最大化模型的性能提升,同时保持参数效率。此外,RoAd还采用了L1正则化等技术来进一步提高参数的稀疏性,从而降低存储和计算成本。
🖼️ 关键图片
📊 实验亮点
RoAd在GLUE、八个常识推理任务和四个算术推理任务上取得了显著的性能提升,同时仅使用了<0.1%的可训练参数。此外,RoAd在批量处理效率方面也表现出色,其开销与元素级乘法相当,远低于传统的批量矩阵乘法。RoAd还通过组合实验,展示了其在增强LLM可解释性方面的潜力。
🎯 应用场景
RoAd方法具有广泛的应用前景,例如:个性化推荐系统,可以根据用户的不同偏好,动态调整模型的行为;智能客服系统,可以根据用户提出的不同问题,选择不同的适配器进行回答;以及金融风控系统,可以根据不同的风险等级,调整模型的风险偏好。RoAd还可以应用于模型可解释性研究,帮助我们更好地理解LLM的工作原理。
📄 摘要(原文)
Parameter-efficient finetuning (PEFT) methods effectively adapt large language models (LLMs) to diverse downstream tasks, reducing storage and GPU memory demands. Despite these advantages, several applications pose new challenges to PEFT beyond mere parameter efficiency. One notable challenge involves the efficient deployment of LLMs equipped with multiple task- or user-specific adapters, particularly when different adapters are needed for distinct requests within the same batch. Another challenge is the interpretability of LLMs, which is crucial for understanding how LLMs function. Previous studies introduced various approaches to address different challenges. In this paper, we introduce a novel method, RoAd, which employs a straightforward 2D rotation to adapt LLMs and addresses all the above challenges: (1) RoAd is remarkably parameter-efficient, delivering optimal performance on GLUE, eight commonsense reasoning tasks and four arithmetic reasoning tasks with $<0.1\%$ trainable parameters; (2) RoAd facilitates the efficient serving of requests requiring different adapters within a batch, with an overhead comparable to element-wise multiplication instead of batch matrix multiplication; (3) RoAd enhances LLM's interpretability through integration within a framework of distributed interchange intervention, demonstrated via composition experiments.