TLoRA: Task-aware Low Rank Adaptation of Large Language Models

📄 arXiv: 2604.18124v1 📥 PDF

作者: Weicheng Lin, Yi Zhang, Jiawei Dang, Liang-Jie Zhang

分类: cs.CL, cs.AI

发布日期: 2026-04-20

备注: Accept to ACL 2026


💡 一句话要点

TLoRA:面向任务的大语言模型低秩自适应优化框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩自适应 参数高效微调 大语言模型 任务感知 奇异值分解

📋 核心要点

  1. 现有LoRA方法在初始化和资源分配上存在不足,通常只关注单一因素,导致训练复杂性增加或效率降低。
  2. TLoRA通过数据驱动的初始化策略,使LoRA的A矩阵与任务相关子空间对齐,并冻结A矩阵,仅训练B矩阵。
  3. 实验结果表明,TLoRA在多种任务上表现出色,显著减少了可训练参数,验证了其有效性和高效性。

📝 摘要(中文)

低秩自适应(LoRA)已成为大语言模型中一种广泛应用的参数高效微调方法,其有效性很大程度上受到秩和缩放因子的分配以及初始化的影响。现有的LoRA变体通常只关注这些因素中的一个,而且往往以增加训练复杂性或降低实际效率为代价。本文提出了任务感知低秩自适应(TLoRA),这是一个统一的框架,可以在训练开始时联合优化初始化和资源分配。TLoRA引入了一种数据驱动的初始化策略,通过对预训练权重和输入激活协方差的乘积执行奇异值分解,使LoRA的$A$矩阵与任务相关的子空间对齐。之后,冻结$A$矩阵,只训练$B$矩阵。此外,TLoRA采用基于敏感性的重要性度量,在固定的参数预算下,自适应地在各层之间分配秩和缩放因子。大量的实验表明,TLoRA在各种任务中始终表现出色,包括自然语言理解、常识推理、数学推理、代码生成和聊天生成,同时显著减少了可训练参数的数量。

🔬 方法详解

问题定义:现有LoRA方法在微调大型语言模型时,对LoRA矩阵的初始化方式以及不同层之间秩的分配策略考虑不足。简单地随机初始化LoRA矩阵可能导致训练效率低下,而静态的秩分配无法适应不同层对参数的需求差异。这些问题限制了LoRA的性能和参数效率。

核心思路:TLoRA的核心思路是任务感知的初始化和资源分配。通过分析预训练权重和输入激活,确定任务相关的子空间,并以此初始化LoRA的A矩阵。同时,根据各层对参数的敏感度,动态地分配秩和缩放因子,从而在有限的参数预算下实现最佳性能。

技术框架:TLoRA包含两个主要阶段:初始化阶段和训练阶段。在初始化阶段,首先计算预训练权重和输入激活的协方差矩阵,然后对其乘积进行奇异值分解(SVD),得到任务相关的子空间。利用该子空间初始化LoRA的A矩阵,并冻结A矩阵。在训练阶段,只训练LoRA的B矩阵。此外,TLoRA还使用基于敏感性的重要性度量来动态分配各层的秩和缩放因子。

关键创新:TLoRA的关键创新在于联合优化初始化和资源分配。数据驱动的初始化策略能够使LoRA矩阵更好地适应特定任务,而基于敏感性的动态秩分配能够更有效地利用参数预算。与现有方法相比,TLoRA能够显著提高性能,同时减少可训练参数的数量。

关键设计:TLoRA使用输入激活的协方差矩阵来估计任务相关的子空间。敏感性度量基于损失函数对LoRA参数的梯度,用于评估各层对参数的需求。秩的分配策略采用贪心算法,逐步增加对敏感度高的层的秩,直到达到参数预算上限。缩放因子采用可学习的参数,通过梯度下降进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TLoRA在各种任务上都优于现有的LoRA变体。例如,在自然语言理解任务上,TLoRA相比于baseline LoRA提升了1-2个百分点。在代码生成任务上,TLoRA能够生成更准确的代码。此外,TLoRA显著减少了可训练参数的数量,降低了微调成本。

🎯 应用场景

TLoRA可广泛应用于各种需要对大型语言模型进行微调的场景,例如自然语言理解、常识推理、数学推理、代码生成和聊天生成等。该方法能够显著降低微调成本,提高模型性能,加速模型部署,具有重要的实际应用价值。未来,TLoRA可以进一步扩展到其他类型的模型和任务中。

📄 摘要(原文)

Low-Rank Adaptation (LoRA) has become a widely adopted parameter-efficient fine-tuning method for large language models, with its effectiveness largely influenced by the allocation of ranks and scaling factors, as well as initialization. Existing LoRA variants typically address only one of these factors, often at the cost of increased training complexity or reduced practical efficiency. In this work, we present Task-aware Low-Rank Adaptation (TLoRA), a unified framework that jointly optimizes initialization and resource allocation at the outset of training. TLoRA introduces a data-driven initialization strategy that aligns the LoRA $A$ matrix with task-relevant subspaces by performing singular value decomposition on the product of pre-trained weights and input activation covariance. After this, the $A$ matrix is frozen, and only the $B$ matrix is trained. Furthermore, TLoRA employs a sensitivity-based importance metric to adaptively allocate ranks and scaling factors across layers under a fixed parameter budget. We conduct extensive experiments that demonstrate TLoRA consistently performs excellently across various tasks, including natural language understanding, commonsense reasoning, math reasoning, code generation, and chat generation, while significantly reducing the number of trainable parameters.