Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge
作者: Hai Wu, Xu Chen, Kaibin Huang
分类: cs.IT, cs.AI
发布日期: 2024-07-13
备注: This work has been submitted to the IEEE for possible publication
💡 一句话要点
提出LoLa DEFT框架,解决边缘设备协同微调大模型时的资源分配与低延迟问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 联邦学习 大模型微调 资源分配 低延迟 协同计算 深度学习
📋 核心要点
- 现有边缘设备微调大模型受限于单设备的计算和内存资源,难以满足用户体验。
- 论文提出设备-边缘协同微调(DEFT)框架,通过多设备协作优化模型参数,解决单设备资源瓶颈。
- 实验结果表明,所提出的LoLa DEFT框架能够显著降低RoBERTa模型在GLUE基准上的微调延迟。
📝 摘要(中文)
本文提出了一种用于网络边缘低延迟协同微调大模型(FoMo)的资源管理方案。为了克服单个设备的内存和计算限制,论文提倡设备-边缘协同微调(DEFT)范式,其中边缘设备协同优化FoMo中不同部分的微调参数。考虑到FoMo架构中参数块深度不同导致计算延迟和内存成本差异,以及设备异构的计算、内存能力和信道条件,论文提出了深度感知的DEFT块分配问题,旨在实现低延迟(LoLa)DEFT。为此,设计了低复杂度的Cutting-RecoUNting-CHecking (CRUNCH)算法来解决块-设备匹配问题。进一步,采用对偶上升法迭代地解决联合带宽和块分配问题。在GLUE基准上的实验结果表明,LoLa DEFT能显著降低RoBERTa模型微调的延迟。
🔬 方法详解
问题定义:论文旨在解决在边缘计算环境下,多个设备协同微调大型预训练模型时,如何有效地分配计算和通信资源,以最小化整体微调延迟的问题。现有方法没有充分考虑模型参数块的深度差异带来的计算成本差异,以及设备异构的计算能力和信道条件,导致资源利用率不高,微调延迟较长。
核心思路:论文的核心思路是设计一种深度感知的资源分配策略,充分利用模型参数块的深度信息,并结合设备的计算能力和信道条件,将计算任务和通信资源合理地分配给各个设备,从而实现低延迟的协同微调。具体来说,就是将模型参数分成不同的块,并根据设备的计算能力和网络状况,将这些块分配给不同的设备进行微调。
技术框架:LoLa DEFT框架主要包含两个阶段:1) 块-设备匹配:利用Cutting-RecoUNting-CHecking (CRUNCH)算法,根据参数块的深度和设备的计算能力,将参数块分配给合适的设备。CRUNCH算法利用了块深度与计算成本之间的单调递增关系,降低了算法复杂度。2) 联合带宽和块分配:采用对偶上升法,迭代地优化带宽和块的分配,以最小化整体微调延迟。该阶段引入了设备参与变量,并将原始问题转化为可分离的拉格朗日表达式。
关键创新:论文的关键创新在于:1) 提出了深度感知的资源分配策略,充分考虑了模型参数块的深度信息,提高了资源利用率。2) 设计了低复杂度的CRUNCH算法,解决了块-设备匹配问题。3) 将原始问题转化为可分离的拉格朗日表达式,并采用对偶上升法迭代地优化带宽和块的分配。
关键设计:1) CRUNCH算法:利用块深度与计算成本之间的单调递增关系,通过剪枝、计数和检查等步骤,快速找到最优的块-设备匹配方案。2) 对偶上升法:通过引入拉格朗日乘子,将原始问题转化为对偶问题,并采用迭代的方式求解。3) 设备参与变量:引入设备参与变量,使得问题可以分解为多个独立的子问题,从而降低了求解复杂度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在GLUE基准上,LoLa DEFT框架能够显著降低RoBERTa模型的微调延迟。与传统的单设备微调相比,LoLa DEFT能够实现显著的延迟降低,具体数值在论文中有详细展示。此外,CRUNCH算法的低复杂度也保证了资源分配的效率。
🎯 应用场景
该研究成果可应用于各种需要边缘设备协同微调大模型的场景,例如智能家居、自动驾驶、工业物联网等。通过降低微调延迟,可以提升用户体验,并加速大模型在边缘端的部署和应用。未来,该研究可以进一步扩展到支持更复杂的模型架构和异构设备环境。
📄 摘要(原文)
The emergence of large-scale foundation models (FoMo's) that can perform human-like intelligence motivates their deployment at the network edge for devices to access state-of-the-art artificial intelligence. For better user experiences, the pre-trained FoMo's need to be adapted to specialized downstream tasks through fine-tuning techniques. To transcend a single device's memory and computation limitations, we advocate multi-device cooperation within the device-edge cooperative fine-tuning (DEFT) paradigm, where edge devices cooperate to simultaneously optimize different parts of fine-tuning parameters within a FoMo. However, the parameter blocks reside at different depths within a FoMo architecture, leading to varied computation latency-and-memory cost due to gradient backpropagation-based calculations. The heterogeneous on-device computation and memory capacities and channel conditions necessitate an integrated communication-and-computation allocation of local computation loads and communication resources to achieve low-latency (LoLa) DEFT. To this end, we consider the depth-ware DEFT block allocation problem. The involved optimal block-device matching is tackled by the proposed low-complexity Cutting-RecoUNting-CHecking (CRUNCH) algorithm, which is designed by exploiting the monotone-increasing property between block depth and computation latency-and-memory cost. Next, the joint bandwidth-and-block allocation makes the problem more sophisticated. We observe a splittable Lagrangian expression through the transformation and analysis of the original problem, where the variables indicating device involvement are introduced. Then, the dual ascent method is employed to tackle this problem iteratively. Through extensive experiments conducted on the GLUE benchmark, our results demonstrate significant latency reduction achievable by LoLa DEFT for fine-tuning a RoBERTa model.