Efficient Layer-wise LLM Fine-tuning for Revision Intention Prediction

📄 arXiv: 2510.00268v1 📥 PDF

作者: Zhexiong Liu, Diane Litman

分类: cs.CL, cs.AI

发布日期: 2025-09-30

备注: In The Conference on Empirical Methods in Natural Language Processing (EMNLP), November 2025


💡 一句话要点

提出IR-Tuning,一种高效的层级LLM微调框架,用于文本修订意图预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大型语言模型 文本修订意图预测 层级选择 梯度范数

📋 核心要点

  1. 现有LLM在文本分类任务中表现不足,尤其是在处理细微文本修订分类时,需要大量标注数据。
  2. IR-Tuning通过动态选择和微调LLM中重要的层,同时冻结冗余层,实现参数高效的微调。
  3. 实验表明,IR-Tuning在文本修订任务上优于其他层级PEFT方法,且收敛速度快,内存消耗低。

📝 摘要(中文)

大型语言模型(LLMs)在各种文本生成任务中表现出非凡的成功;然而,它们在简单但至关重要的文本分类方面的潜力仍未得到充分探索,因为LLM预训练往往侧重于生成而非分类。虽然具有指令调优的LLM可以将分类转换为生成任务,但它们通常难以对细微的文本进行分类。文本修订就是一个例子,它涉及文本对之间的细微编辑。虽然简单地对LLM进行修订分类的微调似乎是可行的,但这需要大量的修订注释,而这些注释在社区中异常昂贵和稀缺。为了解决这个问题,我们引入了一个即插即用的层级参数高效微调(PEFT)框架,即IR-Tuning,它微调基于其梯度范数分布动态选择的重要LLM层的一个子集,同时冻结冗余层。大量的实验表明,IR-Tuning在不同的文本修订中超越了几个层级PEFT基线,同时实现了快速收敛、低GPU内存消耗以及在小型修订语料库上的有效性。

🔬 方法详解

问题定义:论文旨在解决文本修订意图预测问题,即判断两个文本之间的修改意图。现有方法,特别是直接微调大型语言模型(LLM),需要大量的标注数据,而修订数据的标注成本很高,且数据稀缺。此外,直接微调LLM计算成本高昂,效率低下。

核心思路:论文的核心思路是利用参数高效微调(PEFT)技术,只微调LLM中的一部分参数,从而降低计算成本和数据需求。更进一步,论文提出了一种层级选择策略,即IR-Tuning,根据梯度范数动态选择需要微调的层,冻结不重要的层,从而进一步提高效率。这样做的原因是,并非所有层都对特定任务同等重要,选择性地微调重要层可以达到更好的效果。

技术框架:IR-Tuning框架包含以下几个主要步骤:1) 使用预训练的LLM作为基础模型。2) 计算LLM每一层的梯度范数,用于评估该层的重要性。3) 根据梯度范数选择需要微调的层,并冻结其他层。4) 使用修订意图预测数据集对选择的层进行微调。5) 使用微调后的LLM进行修订意图预测。

关键创新:IR-Tuning的关键创新在于其动态层选择策略。与传统的PEFT方法(如LoRA、Adapter等)不同,IR-Tuning不是随机选择或预定义需要微调的层,而是根据梯度范数动态地选择。这种动态选择策略能够更准确地识别对特定任务重要的层,从而提高微调效率和性能。

关键设计:IR-Tuning的关键设计包括:1) 梯度范数的计算方法:论文可能使用了某种特定的梯度范数计算方法,例如L2范数。2) 层选择的阈值:论文需要确定一个阈值,用于判断哪些层的梯度范数足够大,需要进行微调。3) 微调的优化器和学习率:论文需要选择合适的优化器(如AdamW)和学习率,以保证微调的稳定性和收敛速度。4) 损失函数:论文需要选择合适的损失函数来衡量预测结果与真实标签之间的差距,例如交叉熵损失函数。

📊 实验亮点

实验结果表明,IR-Tuning在文本修订意图预测任务上优于多个层级PEFT基线方法。IR-Tuning在保持较低GPU内存消耗的同时,实现了快速收敛,并且在小型修订语料库上表现出良好的有效性。具体性能数据(例如准确率、F1值等)和提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于文本编辑辅助、机器翻译质量评估、代码审查等领域。通过准确预测文本修订意图,可以帮助用户更好地理解和改进文本,提高文本质量和沟通效率。未来,该方法可以扩展到其他文本分类任务,例如情感分析、主题分类等。

📄 摘要(原文)

Large Language Models (LLMs) have shown extraordinary success across various text generation tasks; however, their potential for simple yet essential text classification remains underexplored, as LLM pre-training tends to emphasize generation over classification. While LLMs with instruction tuning can transform classification into a generation task, they often struggle to categorize nuanced texts. One such example is text revision, which involves nuanced edits between pairs of texts. Although simply fine-tuning LLMs for revision classification seems plausible, it requires a large amount of revision annotations, which are exceptionally expensive and scarce in the community. To address this issue, we introduce a plug-and-play layer-wise parameter-efficient fine-tuning (PEFT) framework, i.e., IR-Tuning, which fine-tunes a subset of important LLM layers that are dynamically selected based on their gradient norm distribution, while freezing those of redundant layers. Extensive experiments suggest that IR-Tuning surpasses several layer-wise PEFT baselines over diverse text revisions, while achieving fast convergence, low GPU memory consumption, and effectiveness on small revision corpora.