FRoD: Full-Rank Efficient Fine-Tuning with Rotational Degrees for Fast Convergence
作者: Guoan Wan, Tianyu Chen, Fangzheng Feng, Haoyi Zhou, Runhua Xu
分类: cs.LG, cs.AI
发布日期: 2025-12-29
备注: The 40th Annual AAAI Conference on Artificial Intelligence
💡 一句话要点
FRoD:利用旋转自由度实现全秩高效微调,加速模型收敛
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 全秩微调 旋转自由度 分层联合分解 模型微调 深度学习 大模型
📋 核心要点
- 现有PEFT方法受限于低秩约束,导致收敛速度慢,难以捕捉复杂任务模式。
- FRoD通过分层联合分解和旋转自由度,实现高效的全秩更新,提升表达能力。
- 实验表明,FRoD在多种任务上,使用少量参数即可达到全模型微调的精度。
📝 摘要(中文)
参数高效微调(PEFT)已成为将大型基础模型适应下游任务的实用解决方案,它通过仅更新一小部分参数来降低计算和内存成本。其中,LoRA等方法旨在平衡效率和表达能力,但由于其固有的低秩约束,常常面临收敛速度慢和适应能力有限的问题。这种权衡阻碍了PEFT方法捕捉多样化任务所需的复杂模式。为了应对这些挑战,我们提出了一种新的微调方法FRoD,它结合了分层联合分解与旋转自由度。通过提取跨层的全局共享基,并将稀疏的可学习扰动注入到缩放因子中,以实现灵活的全秩更新,FRoD增强了表达能力和效率,从而实现更快、更稳健的收敛。在涵盖视觉、推理和语言理解的20个基准测试中,FRoD在相同的训练预算下,仅使用1.72%的可训练参数,即可达到与全模型微调相当的精度。
🔬 方法详解
问题定义:现有参数高效微调方法(如LoRA)虽然降低了计算和存储成本,但由于其低秩特性,表达能力受限,导致收敛速度慢,无法充分适应下游任务的复杂模式。因此,如何提高PEFT方法的表达能力和收敛速度,同时保持参数效率,是一个重要的研究问题。
核心思路:FRoD的核心思路是通过引入旋转自由度,实现高效的全秩更新。具体来说,它首先提取跨层的全局共享基,然后通过学习稀疏的扰动来调整缩放因子,从而实现对全秩矩阵的灵活调整。这种方法既能保持参数效率,又能提升模型的表达能力,加速收敛。
技术框架:FRoD方法主要包含以下几个步骤:1) 全局共享基提取:对模型参数进行分层联合分解,提取跨层的全局共享基。2) 缩放因子扰动:在缩放因子上注入稀疏的可学习扰动。3) 参数更新:利用学习到的扰动更新模型参数。整个过程旨在实现高效的全秩更新,提升模型表达能力。
关键创新:FRoD的关键创新在于结合了分层联合分解和旋转自由度,实现了高效的全秩更新。与传统的低秩方法相比,FRoD能够更灵活地调整模型参数,从而更好地适应下游任务。此外,FRoD通过学习稀疏的扰动,进一步提高了参数效率。
关键设计:FRoD的关键设计包括:1) 分层联合分解:采用合适的分解方法,提取跨层的全局共享基。2) 稀疏扰动:设计合适的稀疏约束,保证参数效率。3) 缩放因子选择:选择合适的缩放因子进行扰动,以实现最佳的性能。
🖼️ 关键图片
📊 实验亮点
FRoD在20个涵盖视觉、推理和语言理解的基准测试中表现出色,在相同的训练预算下,仅使用1.72%的可训练参数,即可达到与全模型微调相当的精度。这表明FRoD在参数效率和性能方面都具有显著优势。
🎯 应用场景
FRoD方法可广泛应用于各种需要将大型预训练模型适配到特定下游任务的场景,例如自然语言处理、计算机视觉和语音识别等。它能够以较低的计算和存储成本,快速高效地微调模型,提升模型在特定任务上的性能,具有重要的实际应用价值和潜力。
📄 摘要(原文)
Parameter-efficient fine-tuning (PEFT) methods have emerged as a practical solution for adapting large foundation models to downstream tasks, reducing computational and memory costs by updating only a small subset of parameters. Among them, approaches like LoRA aim to strike a balance between efficiency and expressiveness, but often suffer from slow convergence and limited adaptation capacity due to their inherent low-rank constraints. This trade-off hampers the ability of PEFT methods to capture complex patterns needed for diverse tasks. To address these challenges, we propose FRoD, a novel fine-tuning method that combines hierarchical joint decomposition with rotational degrees of freedom. By extracting a globally shared basis across layers and injecting sparse, learnable perturbations into scaling factors for flexible full-rank updates, FRoD enhances expressiveness and efficiency, leading to faster and more robust convergence. On 20 benchmarks spanning vision, reasoning, and language understanding, FRoD matches full model fine-tuning in accuracy, while using only 1.72% of trainable parameters under identical training budgets.