UORA: Uniform Orthogonal Reinitialization Adaptation in Parameter-Efficient Fine-Tuning of Large Models
作者: Xueyan Zhang, Jinman Zhao, Zhifei Yang, Yibo Zhong, Shuhao Guan, Linbo Cao, Yining Wang
分类: cs.CL
发布日期: 2025-05-26
备注: 20 pages, 2 figures, 15 tables
期刊: ACL 2025
💡 一句话要点
UORA:大模型参数高效微调的均匀正交重初始化适配方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 大型语言模型 低秩近似 重初始化 模型微调
📋 核心要点
- 现有参数高效微调方法(如LoRA)参数量依然较大,计算和存储成本较高,限制了其在大规模场景下的应用。
- UORA通过插值重参数化机制,选择性地重初始化冻结投影矩阵的行和列,显著减少了可训练参数的数量。
- 实验表明,UORA在GLUE和E2E等基准测试中表现出色,并在指令调优和图像分类任务中展现了有效性。
📝 摘要(中文)
本文提出了一种新的参数高效微调(PEFT)方法,名为均匀正交重初始化适配(UORA),用于大型语言模型(LLMs)。UORA通过利用低秩近似方法来减少可训练参数的数量,从而实现最先进的性能和参数效率。与现有的LoRA和VeRA等方法不同,UORA采用基于插值的重参数化机制,该机制在向量幅度启发式的指导下,选择性地重新初始化冻结投影矩阵中的行和列。与LoRA相比,这大大减少了可训练参数,并且在计算和存储效率方面优于VeRA。在各种基准上的综合实验表明,UORA以可忽略的计算开销实现了具有竞争力的微调性能。我们在GLUE和E2E基准上展示了其性能,以及其在指令调优大型语言模型和图像分类模型中的有效性。我们的贡献为LLM的可扩展和资源高效微调建立了一种新的范例。
🔬 方法详解
问题定义:现有的大型语言模型微调方法,如LoRA和VeRA,虽然在一定程度上降低了计算成本,但仍然需要大量的可训练参数,导致计算和存储开销较大。尤其是在资源受限的环境下,如何进一步减少参数量,同时保持甚至提升模型性能,是一个亟待解决的问题。
核心思路:UORA的核心思路是利用一种基于插值的重参数化机制,选择性地重新初始化冻结投影矩阵中的行和列。通过向量幅度启发式方法,确定哪些行和列需要重新初始化,从而在保证模型性能的同时,显著减少需要训练的参数数量。这种方法旨在更有效地利用模型参数,避免不必要的计算和存储开销。
技术框架:UORA方法主要包含以下几个关键步骤:1) 选择需要微调的冻结投影矩阵;2) 使用向量幅度启发式方法确定需要重新初始化的行和列;3) 使用插值方法对选定的行和列进行重参数化,引入少量可训练参数;4) 使用标准的反向传播算法对可训练参数进行优化。整体流程简单高效,易于实现。
关键创新:UORA的关键创新在于其选择性的重初始化策略。与LoRA等方法不同,UORA不是简单地引入低秩矩阵进行微调,而是根据向量幅度动态地选择需要调整的参数,从而更加精细地控制模型的更新过程。这种选择性重初始化策略能够更有效地利用模型参数,减少冗余计算,提高微调效率。
关键设计:UORA的关键设计包括:1) 向量幅度启发式方法:用于确定哪些行和列需要重新初始化,通常选择幅度较大的行和列;2) 插值方法:用于对选定的行和列进行重参数化,可以使用线性插值或其他更复杂的插值方法;3) 可训练参数的初始化:通常使用正交初始化或其他合适的初始化方法,以保证训练的稳定性。
🖼️ 关键图片
📊 实验亮点
UORA在多个基准测试中取得了显著的性能提升。例如,在GLUE和E2E基准测试中,UORA的性能优于LoRA和VeRA等现有方法,同时显著减少了可训练参数的数量。实验结果表明,UORA能够以更少的计算资源实现更高的微调性能,为大型语言模型的参数高效微调提供了一种新的解决方案。
🎯 应用场景
UORA具有广泛的应用前景,尤其适用于资源受限场景下的大型语言模型微调。例如,可以在移动设备或边缘设备上部署高性能的自然语言处理应用。此外,UORA还可以应用于其他类型的深度学习模型,如图像分类模型,从而提高模型的微调效率和泛化能力。未来,UORA有望成为一种通用的参数高效微调方法,推动人工智能技术的普及和应用。
📄 摘要(原文)
This paper introduces Uniform Orthogonal Reinitialization Adaptation (UORA), a novel parameter-efficient fine-tuning (PEFT) approach for Large Language Models (LLMs). UORA achieves state-of-the-art performance and parameter efficiency by leveraging a low-rank approximation method to reduce the number of trainable parameters. Unlike existing methods such as LoRA and VeRA, UORA employs an interpolation-based reparametrization mechanism that selectively reinitializes rows and columns in frozen projection matrices, guided by the vector magnitude heuristic. This results in substantially fewer trainable parameters compared to LoRA and outperforms VeRA in computation and storage efficiency. Comprehensive experiments across various benchmarks demonstrate UORA's superiority in achieving competitive fine-tuning performance with negligible computational overhead. We demonstrate its performance on GLUE and E2E benchmarks and its effectiveness in instruction-tuning large language models and image classification models. Our contributions establish a new paradigm for scalable and resource-efficient fine-tuning of LLMs.