HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

📄 arXiv: 2502.19747v2 📥 PDF

作者: Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Chufan Shi, Zhengwu Liu, Ngai Wong

分类: cs.CL, cs.AR

发布日期: 2025-02-27 (更新: 2025-03-04)

备注: 7 pages


💡 一句话要点

提出HaLoRA,一种硬件感知的低秩适应方法,提升LLM在混合存内计算架构上的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩适应 存内计算 硬件感知 大型语言模型 RRAM 鲁棒性 参数高效微调

📋 核心要点

  1. 现有LoRA方法在部署于基于RRAM的存内计算架构时,易受RRAM噪声影响,导致LLM性能下降。
  2. HaLoRA通过对齐理想和噪声条件下的训练目标,训练出对RRAM噪声具有鲁棒性的LoRA分支。
  3. 实验结果表明,HaLoRA在多个推理任务中显著提升了LLM的性能,平均得分提升高达22.7%。

📝 摘要(中文)

低秩适应(LoRA)是一种主要的参数高效微调方法,用于将大型语言模型(LLM)适应于下游任务。本文首先提出将LoRA微调的LLM部署在混合存内计算(CIM)架构上(即,预训练权重存储在RRAM上,LoRA参数存储在SRAM上)。为了解决RRAM固有噪声导致的性能下降问题,我们设计了一种新颖的硬件感知低秩适应(HaLoRA)方法,旨在通过对齐理想和噪声条件下的训练目标,训练一个既鲁棒又准确的LoRA分支。对LLaMA 3.2 1B和3B进行微调的实验表明,HaLoRA在多个推理任务中有效,在保持各种噪声水平下的鲁棒性的同时,平均得分提高了高达22.7。

🔬 方法详解

问题定义:论文旨在解决将LoRA微调的大型语言模型部署在混合存内计算架构(特别是使用RRAM存储预训练权重)时,由于RRAM的固有噪声导致的性能下降问题。现有的LoRA方法没有考虑到硬件噪声的影响,导致在实际部署时性能不佳。

核心思路:论文的核心思路是设计一种硬件感知的LoRA训练方法,即HaLoRA,通过在训练过程中模拟RRAM的噪声,并优化LoRA分支使其在有噪声和无噪声两种情况下都能表现良好。这样训练得到的LoRA模型能够更好地适应RRAM的硬件特性,从而提高在实际部署时的鲁棒性和准确性。

技术框架:HaLoRA的技术框架主要包括以下几个阶段:1) 使用LoRA对LLM进行微调;2) 在训练过程中,模拟RRAM的噪声,例如通过在权重中加入随机噪声;3) 设计一个损失函数,该损失函数同时考虑理想(无噪声)和噪声条件下的训练目标,使得LoRA分支在两种情况下都能达到最优;4) 使用优化算法更新LoRA参数,最终得到一个对RRAM噪声具有鲁棒性的LoRA模型。

关键创新:HaLoRA的关键创新在于其硬件感知的训练方法。与传统的LoRA方法不同,HaLoRA在训练过程中显式地考虑了RRAM的噪声特性,并通过对齐理想和噪声条件下的训练目标,使得LoRA分支能够更好地适应硬件环境。这种硬件感知的训练方法能够显著提高LLM在实际部署时的鲁棒性和准确性。

关键设计:HaLoRA的关键设计包括:1) 噪声模型的选择,需要选择合适的噪声模型来模拟RRAM的噪声特性;2) 损失函数的设计,需要设计一个能够同时考虑理想和噪声条件下的训练目标的损失函数,例如可以使用一个加权和的损失函数,其中一个分量是理想条件下的损失,另一个分量是噪声条件下的损失;3) 噪声强度的控制,需要控制噪声的强度,以避免过度拟合噪声。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HaLoRA在LLaMA 3.2 1B和3B模型上进行了微调,并在多个推理任务中取得了显著的性能提升。在保持各种噪声水平下的鲁棒性的同时,平均得分提高了高达22.7%。这表明HaLoRA能够有效地提高LLM在基于RRAM的存内计算架构上的性能。

🎯 应用场景

HaLoRA技术可广泛应用于边缘计算设备、物联网设备等资源受限的场景,这些场景通常需要使用存内计算架构来加速LLM的推理。通过提高LLM在这些设备上的鲁棒性和准确性,HaLoRA可以促进LLM在实际应用中的部署,例如智能助手、自然语言处理等。

📄 摘要(原文)

Low-rank adaptation (LoRA) is a predominant parameter-efficient finetuning method to adapt large language models (LLMs) for downstream tasks. In this paper, we first propose to deploy the LoRA-finetuned LLMs on the hybrid compute-in-memory (CIM) architecture (i.e., pretrained weights onto RRAM and LoRA onto SRAM). To address performance degradation from RRAM's inherent noise, we design a novel Hardware-aware Low-rank Adaption (HaLoRA) method, aiming to train a LoRA branch that is both robust and accurate by aligning the training objectives under both ideal and noisy conditions. Experiments finetuning LLaMA 3.2 1B and 3B demonstrate HaLoRA's effectiveness across multiple reasoning tasks, achieving up to 22.7 improvement in average score while maintaining robustness at various noise levels.