GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

📄 arXiv: 2603.09865v1 📥 PDF

作者: Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao

分类: cs.LG

发布日期: 2026-03-10


💡 一句话要点

GAST:梯度对齐的稀疏调优方法,用于高效微调大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大语言模型 稀疏调优 梯度对齐 数据选择

📋 核心要点

  1. 现有PEFT方法忽略了数据点对不同层贡献的差异,且可能丢弃低质量数据中的有用信息。
  2. GAST提出一种梯度对齐的稀疏调优方法,在数据和层两个维度上进行选择性微调,实现统一优化。
  3. 实验结果表明,GAST在性能上优于现有基线方法,为参数高效微调提供了新的思路。

📝 摘要(中文)

参数高效微调(PEFT)已成为调整大型语言模型的关键策略。最近,稀疏调优通过选择性地更新关键参数或数据子集来减少开销。现有方法主要集中在两个不同的范式:层选择方法,旨在微调关键层以最小化计算负担;数据选择方法,旨在选择有效的训练子集以促进训练。然而,当前方法通常忽略了不同数据点对不同模型层的贡献程度不同,并且经常丢弃来自被认为低质量的数据的潜在有价值的信息。为了解决这些限制,我们提出了一种创新的梯度对齐稀疏调优(GAST)方法,该方法同时在数据和层维度上执行选择性微调,作为统一优化策略的组成部分。GAST通过采用层稀疏策略来有针对性地减少信息冗余,该策略自适应地为每一层选择最具影响力的的数据点,从而提供比仅限于单个维度的方法更全面和复杂的解决方案。实验表明,GAST始终优于基线方法,为PEFT策略的未来研究奠定了有希望的方向。

🔬 方法详解

问题定义:现有参数高效微调方法(PEFT)主要分为层选择和数据选择两种。层选择侧重于确定并微调模型中的关键层,以降低计算成本。数据选择则旨在挑选出最具信息量的训练数据子集,以提升训练效率。然而,这些方法通常忽略了不同数据样本对不同模型层的影响程度存在差异,并且可能会因为数据质量评估的偏差而丢弃有价值的信息。因此,如何更精细地选择数据和层,以实现更高效的微调,是本文要解决的问题。

核心思路:GAST的核心思路是同时在数据和层两个维度上进行稀疏选择,并利用梯度对齐来指导选择过程。具体来说,GAST会根据每个数据样本对不同层参数梯度的影响程度,自适应地选择对该层贡献最大的数据样本进行微调。通过这种方式,GAST能够更有效地利用数据,并避免对不重要的层进行不必要的更新。

技术框架:GAST的整体框架包含以下几个主要步骤:1. 梯度计算:计算每个数据样本在每一层上的梯度。2. 重要性评估:基于梯度信息,评估每个数据样本对每一层的重要性。3. 稀疏选择:根据重要性评估结果,选择对每一层贡献最大的数据样本子集。4. 参数更新:仅使用选定的数据样本来更新模型的参数。

关键创新:GAST的关键创新在于其梯度对齐的稀疏选择策略。与现有方法不同,GAST不是独立地进行数据选择和层选择,而是将两者结合起来,根据数据样本对不同层的影响程度进行联合优化。这种方法能够更有效地利用数据,并避免对不重要的层进行不必要的更新。

关键设计:GAST的关键设计包括:1. 梯度对齐度量:使用梯度余弦相似度来衡量数据样本对不同层的影响程度。2. 稀疏度控制:通过设置稀疏度参数来控制每一层选择的数据样本数量。3. 优化目标:使用交叉熵损失函数来优化模型的参数,并添加正则化项来防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAST在多个NLP任务上均优于现有的PEFT方法。例如,在GLUE基准测试中,GAST相比于LoRA等方法,在保持相似参数量的情况下,取得了显著的性能提升。此外,GAST还表现出更好的数据效率,能够在更少的数据上达到更高的性能。

🎯 应用场景

GAST可应用于各种需要高效微调大型语言模型的场景,例如自然语言处理、机器翻译、文本生成等。该方法能够显著降低微调所需的计算资源和时间,使得在资源受限的环境下也能高效地定制化大型语言模型。此外,GAST还有助于提高模型的泛化能力和鲁棒性,使其在实际应用中表现更佳。

📄 摘要(原文)

Parameter-Efficient Fine-Tuning (PEFT) has become a key strategy for adapting large language models, with recent advances in sparse tuning reducing overhead by selectively updating key parameters or subsets of data. Existing approaches generally focus on two distinct paradigms: layer-selective methods aiming to fine-tune critical layers to minimize computational load, and data-selective methods aiming to select effective training subsets to boost training. However, current methods typically overlook the fact that different data points contribute varying degrees to distinct model layers, and they often discard potentially valuable information from data perceived as of low quality. To address these limitations, we propose Gradient-aligned Sparse Tuning (GAST), an innovative method that simultaneously performs selective fine-tuning at both data and layer dimensions as integral components of a unified optimization strategy. GAST specifically targets redundancy in information by employing a layer-sparse strategy that adaptively selects the most impactful data points for each layer, providing a more comprehensive and sophisticated solution than approaches restricted to a single dimension. Experiments demonstrate that GAST consistently outperforms baseline methods, establishing a promising direction for future research in PEFT strategies.