From LLMs to Edge: Parameter-Efficient Fine-Tuning on Edge Devices

📄 arXiv: 2507.23536v1 📥 PDF

作者: Georg Slamanig, Francesco Corti, Olga Saukh

分类: cs.LG, cs.AI

发布日期: 2025-07-31


💡 一句话要点

探索边缘设备上的参数高效微调:针对卷积神经网络的LoRA、DoRA和GaLore研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 边缘计算 卷积神经网络 LoRA DoRA GaLore 深度可分离卷积 模型优化

📋 核心要点

  1. 现有PEFT方法在LLM上研究较多,但在边缘设备上小型卷积神经网络的应用探索不足。
  2. 论文评估LoRA、DoRA和GaLore等PEFT方法在边缘设备卷积网络上的性能,并分析其计算成本。
  3. 实验表明,针对边缘优化的卷积架构,基于适配器的PEFT方法可显著减少模型更新期间的FLOPs。

📝 摘要(中文)

参数高效微调(PEFT)方法通过最小化用于适应下游任务的额外参数数量,来降低更新深度学习模型的计算成本。虽然PEFT在大型语言模型(LLM)中得到了广泛研究,但其在边缘设备上使用的小型模型(如卷积神经网络)中的应用仍未被充分探索。本文对典型的部署在资源受限的边缘环境中的卷积架构上的流行PEFT方法进行了基准测试和分析。我们评估了LoRA、DoRA和GaLore,用于更新标准和深度可分离卷积架构,以处理分布偏移和适应未见过的类别。我们利用最近提出的PyTorch分析器来比较这些PEFT方法与传统微调方法的更新模型性能和计算成本。考虑到资源效率,我们研究了它们在不同秩维度上的更新行为。我们发现,与LLM相比,所评估的PEFT方法应用于深度可分离卷积架构时,其内存效率仅为一半。相反,当针对为边缘部署优化的卷积架构时,基于适配器的PEFT方法可以将模型更新期间的浮点运算(FLOP)减少高达95%。这些见解为基于硬件约束、性能要求和应用需求选择PEFT方法提供了有价值的指导。我们的代码已公开。

🔬 方法详解

问题定义:论文旨在解决在资源受限的边缘设备上,如何高效地微调卷积神经网络(CNN)以适应新的任务或数据分布的问题。现有方法,如全参数微调,计算成本高昂,不适用于边缘设备。现有的参数高效微调方法(PEFT)主要集中在大型语言模型(LLM)上,对小型CNN的适用性研究不足。

核心思路:论文的核心思路是将LLM中常用的PEFT方法(LoRA、DoRA、GaLore)应用于边缘设备上常见的卷积神经网络,并分析其性能和计算成本。通过实验评估这些方法在处理分布偏移和适应未见过的类别时的效果,并探索不同秩维度对更新行为的影响。

技术框架:论文的技术框架主要包括以下几个步骤:1)选择典型的边缘设备卷积神经网络架构(标准卷积和深度可分离卷积);2)应用LoRA、DoRA和GaLore等PEFT方法进行微调;3)使用PyTorch profiler测量微调过程中的计算成本(FLOPs、内存占用等);4)评估微调后模型在目标任务上的性能(例如,分类准确率);5)分析不同PEFT方法在不同秩维度下的更新行为。

关键创新:论文的关键创新在于:1)首次系统性地研究了LoRA、DoRA和GaLore等PEFT方法在边缘设备卷积神经网络上的性能;2)揭示了这些方法在深度可分离卷积架构上的内存效率低于LLM的现象;3)发现针对边缘优化的卷积架构,基于适配器的PEFT方法可以显著降低模型更新期间的FLOPs。

关键设计:论文的关键设计包括:1)选择了具有代表性的边缘设备卷积神经网络架构,如MobileNet等;2)使用了PyTorch profiler进行精确的计算成本测量;3)通过调整LoRA、DoRA和GaLore的秩维度,研究了不同参数量对性能的影响;4)在实验中,考虑了分布偏移和未见过的类别等实际应用场景。

📊 实验亮点

实验结果表明,当针对为边缘部署优化的卷积架构时,基于适配器的PEFT方法可以将模型更新期间的浮点运算(FLOP)减少高达95%。此外,研究还发现,与LLM相比,所评估的PEFT方法应用于深度可分离卷积架构时,其内存效率仅为一半。这些发现为在边缘设备上选择合适的PEFT方法提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于各种边缘计算场景,例如智能摄像头、自动驾驶、物联网设备等。通过使用参数高效微调方法,可以在资源受限的边缘设备上快速适应新的任务和数据分布,提高模型的泛化能力和鲁棒性,降低部署和维护成本。未来的研究可以进一步探索更适合边缘设备的PEFT方法,并将其应用于更复杂的视觉任务。

📄 摘要(原文)

Parameter-efficient fine-tuning (PEFT) methods reduce the computational costs of updating deep learning models by minimizing the number of additional parameters used to adapt a model to a down- stream task. While extensively researched in large language models (LLMs), their application to smaller models used on edge devices, such as convolutional neural networks, remains underexplored. This paper benchmarks and analyzes popular PEFT methods on convolutional architectures typically deployed in resource-constrained edge environments. We evaluate LoRA, DoRA, and GaLore for updating standard and depthwise convolutional architectures to handle distribution shifts and accommodate unseen classes. We utilize recently proposed PyTorch profilers to compare the updated model performance and computational costs of these PEFT methods with traditional fine-tuning approaches. With resource efficiency in mind, we investigate their update behavior across different rank dimensions. We find that the evaluated PEFT methods are only half as memory-efficient when applied to depthwise-separable convolution architectures, compared to their efficiency with LLMs. Conversely, when targeting convolu- tional architectures optimized for edge deployment, adapter-based PEFT methods can reduce floating point operations (FLOPs) during model updates by up to 95%. These insights offer valuable guidance for selecting PEFT methods based on hardware constraints, performance requirements, and application needs. Our code is online.