Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance

📄 arXiv: 2410.10796v3 📥 PDF

作者: Sachin Goyal, Christina Baek, J. Zico Kolter, Aditi Raghunathan

分类: cs.LG, cs.CL

发布日期: 2024-10-14 (更新: 2025-04-21)

备注: Published at ICLR 2025 (Oral)


💡 一句话要点

揭示指令微调中上下文-参数反转现象,并分析其成因与缓解策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令微调 上下文依赖 知识冲突 参数知识 大型语言模型

📋 核心要点

  1. 现有大型语言模型在处理与预训练知识冲突的上下文信息时,表现出上下文依赖性不足的问题。
  2. 论文发现指令微调会引发“上下文-参数反转”现象,即上下文依赖性先增后减,与模型整体性能提升趋势相悖。
  3. 通过受控实验和理论分析,论文揭示了该现象的成因,并提出了初步的缓解策略。

📝 摘要(中文)

大型语言模型通常需要通过输入上下文来补充指令,以便处理新信息。然而,模型在遵循输入上下文方面存在困难,尤其是在上下文与预训练的参数知识冲突时。理想情况下,指令微调应能使模型更好地适应用户上下文,尤其是在处理知识冲突时。但我们观察到一个令人惊讶的失效模式:在指令微调过程中,知识冲突下的上下文依赖性最初如预期般增加,但随后随着指令微调的进行而逐渐降低。与此同时,模型在标准基准测试上的性能持续提升。我们将这种现象称为上下文-参数反转,并在TULU、Alpaca和Ultrachat等多个通用指令微调数据集以及Llama、Mistral和Pythia等不同模型系列中观察到它。我们进行了各种受控研究和理论分析,表明上下文-参数反转的发生是由于指令微调数据中存在输入上下文与模型参数知识对齐的示例。我们的分析提出了一些自然的缓解策略,这些策略具有有限但有启发性的收益,并为解决指令微调中的这一缺陷提供了一个有用的起点。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在指令微调过程中出现的上下文依赖性问题,尤其是在输入上下文与模型预训练知识存在冲突时。现有方法,即直接进行指令微调,虽然可以提高模型在通用任务上的性能,但可能会降低模型对上下文信息的依赖程度,导致模型更倾向于使用其自身的参数知识,而忽略用户提供的上下文信息。

核心思路:论文的核心思路是深入研究指令微调过程中上下文依赖性的变化,并找出导致“上下文-参数反转”现象的原因。通过分析指令微调数据,发现当输入上下文与模型参数知识对齐时,模型会倾向于依赖参数知识,从而降低对上下文的依赖。因此,论文提出通过调整训练数据,减少这种对齐情况,来缓解该问题。

技术框架:论文采用了一系列受控实验来研究上下文-参数反转现象。首先,在不同的指令微调数据集(如TULU、Alpaca和Ultrachat)和模型系列(如Llama、Mistral和Pythia)上观察该现象。然后,设计特定的实验场景,例如构建包含知识冲突和知识对齐的上下文输入,来分析模型对上下文的依赖程度。最后,通过理论分析,解释该现象的内在机制。

关键创新:论文最重要的技术创新点在于发现了指令微调中的“上下文-参数反转”现象,并揭示了其与训练数据中上下文与参数知识对齐程度之间的关系。这一发现挑战了传统的指令微调方法,并为改进指令微调策略提供了新的思路。

关键设计:论文的关键设计包括:1) 设计了能够量化上下文依赖性的指标,用于评估模型在不同训练阶段对上下文信息的利用程度;2) 构建了包含知识冲突和知识对齐的上下文输入,用于分析模型在不同情况下的行为;3) 提出了基于调整训练数据的缓解策略,例如通过增加包含知识冲突的训练样本,来提高模型对上下文的依赖性。

📊 实验亮点

论文通过实验证明,指令微调会导致上下文依赖性出现反转现象,即随着训练的进行,模型对上下文的依赖程度先增加后减少。研究发现,这种现象与训练数据中上下文与模型参数知识的对齐程度有关。通过调整训练数据,可以部分缓解该问题,但效果有限,表明需要更深入的研究来解决这一挑战。

🎯 应用场景

该研究成果可应用于提升大型语言模型在知识密集型任务中的性能,例如问答系统、信息检索和对话生成。通过缓解上下文-参数反转现象,可以使模型更好地利用用户提供的上下文信息,从而生成更准确、更相关的结果。未来的研究可以探索更有效的缓解策略,例如设计更鲁棒的损失函数或采用更先进的训练方法。

📄 摘要(原文)

A standard practice when using large language models is for users to supplement their instruction with an input context containing new information for the model to process. However, models struggle to reliably follow the input context, especially when it conflicts with their parametric knowledge from pretraining. In-principle, one would expect models to adapt to the user context better after instruction finetuning, particularly when handling knowledge conflicts. However, we observe a surprising failure mode: during instruction tuning, the context reliance under knowledge conflicts initially increases as expected, but then gradually decreases as instruction finetuning progresses. This happens while the performance on standard benchmarks keeps on increasing far after this drop. We call this phenomenon context-parametric inversion and observe it across multiple general purpose instruction tuning datasets such as TULU, Alpaca and Ultrachat, across different model families like Llama, Mistral, and Pythia. We perform various controlled studies and theoretical analysis to show that context-parametric inversion occurs due to examples in the instruction finetuning data where the input context provides information that aligns with model's parametric knowledge. Our analysis suggests some natural mitigation strategies with limited but insightful gains, and serves as a useful starting point in addressing this deficiency in instruction finetuning.