Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models
作者: Chungpa Lee, Jy-yong Sohn, Kangwook Lee
分类: cs.CL, cs.LG, stat.ML
发布日期: 2026-02-26
💡 一句话要点
针对线性注意力模型,提出一种在微调过程中保持上下文学习能力的方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 微调 线性注意力模型 零样本学习 少量样本学习
📋 核心要点
- 现有微调方法在提升零样本性能的同时,可能损害大型语言模型的上下文学习能力,限制其在未见任务上的泛化能力。
- 该论文通过理论分析,揭示了微调目标对注意力参数的影响,并提出限制值矩阵更新的策略来缓解上下文学习能力的退化。
- 实验验证了理论分析的正确性,并表明限制值矩阵更新可以在提升零样本性能的同时,有效保留上下文学习能力。
📝 摘要(中文)
基于Transformer的大型语言模型展现出上下文学习能力,可以通过少量示例提示来适应下游任务。实践中,这些模型通常经过微调以提高在下游任务上的零样本性能,从而无需示例即可解决任务,降低推理成本。然而,微调可能会降低上下文学习能力,限制微调后的模型在未见任务上的性能。本文使用线性注意力模型,提供了一个理论分析,描述了微调目标如何修改注意力参数,并确定了导致少量样本性能下降的条件。研究表明,微调所有注意力参数会损害上下文学习,而限制对值矩阵的更新可以提高零样本性能,同时保留上下文学习能力。此外,引入辅助的少量样本损失主要增强目标任务上的上下文学习,但会降低在微调期间未见任务上的上下文学习能力。最后,通过实验验证了理论结果。
🔬 方法详解
问题定义:现有的大型语言模型在微调后,虽然零样本性能得到提升,但其固有的上下文学习能力却可能下降。这意味着模型在面对新的、未经过微调训练的任务时,利用少量样本进行快速学习的能力会受到损害。论文旨在解决如何在微调过程中保持甚至增强模型的上下文学习能力,使其在提升零样本性能的同时,也能很好地适应新的任务。
核心思路:论文的核心思路是通过理论分析,理解微调过程中注意力参数的变化如何影响上下文学习能力。基于此,提出一种选择性微调策略,即只更新注意力机制中的值矩阵(Value Matrix),而保持其他参数不变。这种策略旨在最小化对原始上下文学习能力的干扰,同时允许模型学习到新的任务知识。
技术框架:该研究主要基于线性注意力模型进行理论分析和实验验证。整体框架包括:1) 理论分析:推导微调目标函数对注意力参数的影响,特别是对上下文学习能力的影响;2) 选择性微调:提出只更新值矩阵的微调策略;3) 实验验证:在多个数据集上验证选择性微调策略的有效性,并与全参数微调进行对比。
关键创新:该论文的关键创新在于:1) 首次从理论上分析了微调对上下文学习能力的影响;2) 提出了选择性微调策略,通过限制参数更新范围来保持上下文学习能力。这种方法不同于传统的全参数微调,也不同于一些复杂的正则化方法,具有简单有效的特点。
关键设计:论文的关键设计包括:1) 使用线性注意力模型进行理论分析,简化了分析的复杂度,使其更易于理解;2) 提出只更新值矩阵的微调策略,避免了对查询矩阵(Query Matrix)和键矩阵(Key Matrix)的干扰,因为这两个矩阵被认为对上下文学习能力至关重要;3) 引入辅助的少量样本损失,以增强目标任务上的上下文学习能力,但同时也观察到其对未见任务的上下文学习能力有负面影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,限制对值矩阵的更新可以在提高零样本性能的同时,有效保留上下文学习能力。具体来说,与全参数微调相比,选择性微调策略在多个数据集上取得了相近甚至更好的零样本性能,同时显著提升了模型在未见任务上的少量样本学习能力。此外,实验还验证了辅助少量样本损失对目标任务上下文学习能力的增强作用,以及对未见任务上下文学习能力的负面影响,与理论分析结果相符。
🎯 应用场景
该研究成果可应用于各种需要快速适应新任务的场景,例如智能客服、对话系统、机器翻译等。通过在微调过程中保持上下文学习能力,可以使模型在面对新的用户需求或语言风格时,能够更快地进行适应,从而提高用户体验和系统性能。此外,该研究也为未来的模型微调策略提供了新的思路,有助于开发更加高效和灵活的语言模型。
📄 摘要(原文)
Transformer-based large language models exhibit in-context learning, enabling adaptation to downstream tasks via few-shot prompting with demonstrations. In practice, such models are often fine-tuned to improve zero-shot performance on downstream tasks, allowing them to solve tasks without examples and thereby reducing inference costs. However, fine-tuning can degrade in-context learning, limiting the performance of fine-tuned models on tasks not seen during fine-tuning. Using linear attention models, we provide a theoretical analysis that characterizes how fine-tuning objectives modify attention parameters and identifies conditions under which this leads to degraded few-shot performance. We show that fine-tuning all attention parameters can harm in-context learning, whereas restricting updates to the value matrix improves zero-shot performance while preserving in-context learning. We further show that incorporating an auxiliary few-shot loss enhances in-context learning primarily on the target task, at the expense of degraded in-context learning ability on tasks not seen during fine-tuning. We empirically validate our theoretical results.