ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections

📄 arXiv: 2405.20271v2 📥 PDF

作者: Massimo Bini, Karsten Roth, Zeynep Akata, Anna Khoreva

分类: cs.LG, cs.CL, cs.CV

发布日期: 2024-05-30 (更新: 2024-10-11)

备注: Accepted to ICML 2024. Code available at https://github.com/mwbini/ether

🔗 代码/项目: GITHUB


💡 一句话要点

提出ETHER:一种基于超平面反射的高效大模型微调方法,显著降低参数量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 超平面反射 大模型微调 迁移学习 自然语言处理

📋 核心要点

  1. 现有参数高效微调方法引入的额外参数和计算量巨大,限制了其在大规模场景下的应用。
  2. ETHER变换族利用超平面反射进行高效微调,所需参数极少,且对超参数选择具有鲁棒性。
  3. ETHER及其变体ETHER+在图像合成和自然语言任务中,以远低于现有方法参数量的情况下,达到或超越了现有PEFT方法的性能。

📝 摘要(中文)

参数高效微调(PEFT)已成为将基础模型适配到下游任务需求同时保留其泛化能力的一种常用方法。然而,额外引入的参数量和计算量,特别是当大规模部署以服务众多个体请求时,可能会迅速膨胀,从而导致成功的适配和超参数搜索变得困难。为了确保有效、参数高效和超参数鲁棒的适配,我们提出了ETHER变换族,它通过超平面反射执行高效微调。ETHER变换在设计上需要最少数量的参数,不太可能降低模型性能,并且对超参数和学习率的选择表现出鲁棒性。特别地,我们介绍了ETHER及其松弛版本ETHER+,它们在多个图像合成和自然语言任务中,以显著更少的参数(比LoRA或OFT低约10-100倍)匹配或优于现有的PEFT方法,而无需进行详尽的超参数调整。最后,我们研究了最近对用于适配的超球面能量保持的强调,并对其在实际应用中的效用提出了质疑。代码可在https://github.com/mwbini/ether获取。

🔬 方法详解

问题定义:论文旨在解决大型模型微调过程中参数效率低下的问题。现有的参数高效微调方法(如LoRA、OFT)虽然减少了需要训练的参数量,但仍然需要引入相对较多的额外参数,这增加了计算成本和存储需求,尤其是在大规模部署时,超参数调优的成本也会显著增加。

核心思路:论文的核心思路是利用超平面反射进行参数更新。通过将参数更新限制在由超平面定义的子空间内,可以显著减少需要学习的参数数量,同时保持模型的表达能力。这种方法类似于在模型参数空间中进行“反射”,从而实现高效的微调。

技术框架:ETHER方法的核心在于定义一个超平面,并通过在该超平面上进行反射来更新模型参数。具体来说,给定一个预训练的模型参数和一个超平面,ETHER计算参数在超平面上的反射,并将反射后的参数作为微调后的参数。ETHER+是ETHER的松弛版本,允许参数在超平面附近进行小幅度的调整,从而进一步提高模型的性能。整个流程包括:1) 定义超平面;2) 计算参数在超平面上的反射;3) 使用反射后的参数进行下游任务的训练。

关键创新:ETHER的关键创新在于利用超平面反射来限制参数更新的空间,从而实现极高的参数效率。与现有方法相比,ETHER不需要引入大量的额外参数,而是通过在预训练模型的参数空间中进行几何变换来实现微调。这种方法在参数效率和性能之间取得了更好的平衡。

关键设计:ETHER的关键设计包括超平面的定义方式和反射的计算方法。超平面通常由一个法向量和一个偏移量来定义。法向量决定了超平面的方向,偏移量决定了超平面与原点的距离。反射的计算方法基于线性代数中的标准公式。此外,ETHER+引入了一个松弛因子,允许参数在超平面附近进行小幅度的调整。损失函数采用标准的交叉熵损失或均方误差损失,具体取决于下游任务的类型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ETHER和ETHER+在多个图像合成和自然语言任务中,以显著更少的参数(比LoRA或OFT低约10-100倍)匹配或优于现有的PEFT方法,而无需进行详尽的超参数调整。这表明ETHER在参数效率和性能之间取得了显著的平衡,并且具有良好的超参数鲁棒性。

🎯 应用场景

ETHER方法可广泛应用于各种需要对大型预训练模型进行微调的场景,例如自然语言处理、计算机视觉和语音识别等。其高参数效率使其特别适用于资源受限的环境,例如移动设备或边缘计算平台。此外,ETHER的超参数鲁棒性可以降低微调过程中的调参成本,加速模型的部署。

📄 摘要(原文)

Parameter-efficient finetuning (PEFT) has become ubiquitous to adapt foundation models to downstream task requirements while retaining their generalization ability. However, the amount of additionally introduced parameters and compute for successful adaptation and hyperparameter searches can explode quickly, especially when deployed at scale to serve numerous individual requests. To ensure effective, parameter-efficient, and hyperparameter-robust adaptation, we propose the ETHER transformation family, which performs Efficient fineTuning via HypErplane Reflections. By design, ETHER transformations require a minimal number of parameters, are less likely to deteriorate model performance, and exhibit robustness to hyperparameter and learning rate choices. In particular, we introduce ETHER and its relaxation ETHER+, which match or outperform existing PEFT methods with significantly fewer parameters ($\sim$$10$-$100$ times lower than LoRA or OFT) across multiple image synthesis and natural language tasks without exhaustive hyperparameter tuning. Finally, we investigate the recent emphasis on Hyperspherical Energy retention for adaptation and raise questions on its practical utility. The code is available at https://github.com/mwbini/ether.