Instruction Following without Instruction Tuning

📄 arXiv: 2409.14254v1 📥 PDF

作者: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning

分类: cs.CL

发布日期: 2024-09-21


💡 一句话要点

揭示隐式指令调优:仅凭响应或领域数据微调即可实现指令遵循

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令调优 隐式学习 语言模型 预训练模型 指令遵循

📋 核心要点

  1. 现有指令调优依赖于指令-响应对,成本高昂且数据收集困难。
  2. 论文提出隐式指令调优,即仅通过响应或窄领域数据微调即可实现指令遵循。
  3. 实验表明,即使没有明确的指令调优,模型也能涌现出指令遵循能力。

📝 摘要(中文)

指令调优通常指在指令-响应对上微调语言模型。本文发现两种适应(调优)形式,它们不如指令调优,但仍然可以产生指令遵循行为;我们称之为隐式指令调优。首先,我们发现指令-响应对不是必需的:仅在响应上训练,而没有任何相应的指令,就可以产生指令遵循。这表明预训练模型具有指令-响应映射,通过教导模型所需的响应分布来揭示这种映射。然而,我们随后发现教导所需的响应分布也不是必需的:在诗歌等窄领域数据上进行指令-响应训练仍然会导致广泛的指令遵循行为,例如菜谱生成。特别是,当指令与窄微调领域中的指令非常不同时,模型的响应不符合微调领域的风格。为了开始解释隐式指令调优,我们假设对语言模型分布的非常简单的改变会产生指令遵循。我们通过手写一个基于规则的语言模型来支持这一点,该模型在与预训练模型的专家乘积中产生指令遵循。这些规则是缓慢地增加序列结束的概率,惩罚重复,并均匀地改变15个单词的概率。总而言之,在没有被设计为产生指令遵循的情况下进行的适应可以隐式地做到这一点。

🔬 方法详解

问题定义:现有指令调优方法依赖于大量的指令-响应对,这些数据的收集和标注成本很高。此外,指令调优可能导致模型过度拟合特定指令格式,泛化能力受限。因此,如何降低指令调优的成本,并提高模型的泛化能力是一个重要的问题。

核心思路:论文的核心思路是,预训练语言模型已经具备一定的指令-响应映射能力,这种能力可以通过一些隐式的方式被激发出来,而不需要显式的指令调优。具体来说,可以通过仅在响应上训练,或者在窄领域数据上进行指令-响应训练,来引导模型学习指令遵循的行为。

技术框架:论文没有提出一个全新的技术框架,而是通过实验来验证隐式指令调优的可能性。实验主要分为三个部分:1)仅在响应上训练;2)在窄领域数据上进行指令-响应训练;3)设计一个简单的基于规则的语言模型,与预训练模型结合,验证简单的分布改变可以产生指令遵循。

关键创新:论文最重要的技术创新点是发现了隐式指令调优现象,即不需要显式的指令调优,模型也能涌现出指令遵循能力。这挑战了传统的指令调优范式,为降低指令调优成本,提高模型泛化能力提供了新的思路。

关键设计:论文的关键设计在于实验设置,通过对比不同训练方式下的模型表现,来验证隐式指令调优的可能性。例如,在窄领域数据上进行指令-响应训练时,论文特别关注指令与微调领域指令差异很大时,模型的响应是否会受到微调领域风格的影响。此外,论文还设计了一个基于规则的语言模型,通过手动调整概率分布,来模拟隐式指令调优的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文发现,仅在响应上训练,无需指令,即可实现指令遵循。更令人惊讶的是,即使在诗歌等窄领域数据上进行指令-响应训练,模型也能生成菜谱等广泛领域的指令遵循行为。这表明预训练模型具有强大的指令-响应映射能力,可以通过隐式的方式被激发。

🎯 应用场景

该研究成果可应用于降低指令调优的成本,例如在资源受限的场景下,可以仅使用响应数据或窄领域数据来训练指令遵循模型。此外,该研究也有助于理解预训练语言模型的内在机制,为设计更有效的指令调优方法提供理论基础。未来,可以探索更多隐式指令调优的方法,进一步提升模型的泛化能力和鲁棒性。

📄 摘要(原文)

Instruction tuning commonly means finetuning a language model on instruction-response pairs. We discover two forms of adaptation (tuning) that are deficient compared to instruction tuning, yet still yield instruction following; we call this implicit instruction tuning. We first find that instruction-response pairs are not necessary: training solely on responses, without any corresponding instructions, yields instruction following. This suggests pretrained models have an instruction-response mapping which is revealed by teaching the model the desired distribution of responses. However, we then find it's not necessary to teach the desired distribution of responses: instruction-response training on narrow-domain data like poetry still leads to broad instruction-following behavior like recipe generation. In particular, when instructions are very different from those in the narrow finetuning domain, models' responses do not adhere to the style of the finetuning domain. To begin to explain implicit instruction tuning, we hypothesize that very simple changes to a language model's distribution yield instruction following. We support this by hand-writing a rule-based language model which yields instruction following in a product-of-experts with a pretrained model. The rules are to slowly increase the probability of ending the sequence, penalize repetition, and uniformly change 15 words' probabilities. In summary, adaptations made without being designed to yield instruction following can do so implicitly.