Efficient Layer-wise LLM Fine-tuning for Revision Intention Prediction

📄 arXiv: 2510.00268v1 📥 PDF

作者: Zhexiong Liu, Diane Litman

分类: cs.CL, cs.AI

发布日期: 2025-09-30

备注: In The Conference on Empirical Methods in Natural Language Processing (EMNLP), November 2025


💡 一句话要点

提出IR-Tuning,一种高效的层级LLM微调框架,用于文本修订意图预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 层级微调 文本修订意图预测 大型语言模型 梯度范数

📋 核心要点

  1. 现有LLM在文本分类任务中,尤其是在处理细微文本修订分类时,面临标注数据稀缺和微调成本高昂的挑战。
  2. IR-Tuning通过动态选择并微调LLM中重要的层,同时冻结冗余层,实现了参数高效的微调,降低了计算成本。
  3. 实验结果表明,IR-Tuning在文本修订任务上优于其他层级PEFT基线,且收敛速度快,内存消耗低,适用于小型语料库。

📝 摘要(中文)

大型语言模型(LLM)在各种文本生成任务中表现出非凡的成功;然而,它们在简单但至关重要的文本分类方面的潜力仍未得到充分探索,因为LLM预训练往往侧重于生成而非分类。虽然具有指令调优的LLM可以将分类转换为生成任务,但它们通常难以对细微的文本进行分类。文本修订就是一个例子,它涉及文本对之间的细微编辑。虽然简单地对LLM进行修订分类的微调似乎是可行的,但这需要大量的修订标注,而这些标注在社区中异常昂贵和稀缺。为了解决这个问题,我们引入了一个即插即用的层级参数高效微调(PEFT)框架,即IR-Tuning,它微调基于其梯度范数分布动态选择的重要LLM层的一个子集,同时冻结冗余层。广泛的实验表明,IR-Tuning超越了各种文本修订的几个层级PEFT基线,同时实现了快速收敛、低GPU内存消耗以及在小型修订语料库上的有效性。

🔬 方法详解

问题定义:论文旨在解决文本修订意图预测问题,即判断两个文本之间的修改意图。现有方法,特别是直接微调大型语言模型(LLM),需要大量的标注数据,而修订标注数据获取成本高昂且稀缺。此外,全参数微调LLM计算资源消耗大,效率低。

核心思路:论文的核心思路是利用参数高效微调(PEFT)技术,只微调LLM中的一部分参数,从而降低计算成本和数据需求。更进一步,论文提出了一种层级的PEFT方法,即IR-Tuning,它能够动态选择LLM中重要的层进行微调,而冻结冗余层,从而进一步提高效率。

技术框架:IR-Tuning框架包含以下几个主要步骤:1) 对LLM进行初始化;2) 计算每一层的梯度范数;3) 基于梯度范数选择需要微调的层;4) 对选定的层进行微调,同时冻结其他层;5) 使用微调后的LLM进行修订意图预测。

关键创新:IR-Tuning的关键创新在于其动态层选择机制。它不是预先固定微调哪些层,而是根据梯度范数动态地选择。梯度范数可以反映每一层对任务的重要性,因此选择梯度范数大的层进行微调可以更有效地利用有限的计算资源。这种动态选择机制使得IR-Tuning能够适应不同的任务和数据集。

关键设计:IR-Tuning的关键设计包括:1) 梯度范数的计算方法:论文采用了一种标准的梯度范数计算方法,即计算每一层参数梯度的L2范数;2) 层选择策略:论文采用了一种基于阈值的层选择策略,即选择梯度范数大于阈值的层进行微调。阈值的选择可以根据实际情况进行调整;3) 微调策略:论文采用了一种标准的微调策略,即使用Adam优化器和交叉熵损失函数进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IR-Tuning在文本修订任务上优于多个层级PEFT基线。具体而言,IR-Tuning在保持较低的GPU内存消耗和快速收敛速度的同时,在小型修订语料库上取得了显著的性能提升。这些结果验证了IR-Tuning在数据稀缺场景下的有效性和高效性。

🎯 应用场景

该研究成果可应用于文本编辑、机器翻译、代码审查等领域,帮助系统理解文本修改的意图,从而提供更智能的辅助功能。例如,在代码审查中,可以利用该技术预测代码修改的潜在问题,提高代码质量。此外,该方法在数据稀缺场景下的高效性,使其在低资源语言处理等领域具有应用潜力。

📄 摘要(原文)

Large Language Models (LLMs) have shown extraordinary success across various text generation tasks; however, their potential for simple yet essential text classification remains underexplored, as LLM pre-training tends to emphasize generation over classification. While LLMs with instruction tuning can transform classification into a generation task, they often struggle to categorize nuanced texts. One such example is text revision, which involves nuanced edits between pairs of texts. Although simply fine-tuning LLMs for revision classification seems plausible, it requires a large amount of revision annotations, which are exceptionally expensive and scarce in the community. To address this issue, we introduce a plug-and-play layer-wise parameter-efficient fine-tuning (PEFT) framework, i.e., IR-Tuning, which fine-tunes a subset of important LLM layers that are dynamically selected based on their gradient norm distribution, while freezing those of redundant layers. Extensive experiments suggest that IR-Tuning surpasses several layer-wise PEFT baselines over diverse text revisions, while achieving fast convergence, low GPU memory consumption, and effectiveness on small revision corpora.