What Do Language Models Learn in Context? The Structured Task Hypothesis

📄 arXiv: 2406.04216v3 📥 PDF

作者: Jiaoda Li, Yifan Hou, Mrinmaya Sachan, Ryan Cotterell

分类: cs.CL, cs.LG

发布日期: 2024-06-06 (更新: 2024-08-05)

备注: This work is published in ACL 2024


💡 一句话要点

通过组合预训练任务,语言模型可实现上下文学习

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 大型语言模型 任务组合 文本分类 预训练任务

📋 核心要点

  1. 现有理论对LLM上下文学习的解释存在争议,任务选择和元学习假设缺乏充分的实验支持。
  2. 该论文提出LLM通过组合预训练期间学习的任务来实现上下文学习,从而完成新任务。
  3. 通过文本分类任务的实验,论文驳斥了任务选择和元学习假设,并验证了任务组合假设。

📝 摘要(中文)

大型语言模型(LLMs)展现出一种有趣的特性,即能够从演示中呈现的上下文示例中学习新任务,这种能力被称为上下文学习(ICL)。大量研究致力于揭示ICL背后的理论。一种流行的假设是通过任务选择来解释ICL,即LLMs基于演示识别任务,并将其泛化到提示。另一种假设是ICL是一种元学习形式,模型在预训练时学习一种学习算法,并将其应用于演示。第三种假设认为,LLMs使用演示来选择预训练期间学习的任务组合,以执行ICL。本文通过一系列源自常见文本分类任务的实验,对这三种解释LLMs上下文学习能力的假设进行了实证研究。我们用反例驳斥了前两个假设,并为最后一个假设提供了支持证据。我们的结果表明,LLM可以通过组合预训练期间学习的任务,在上下文中学习新任务。

🔬 方法详解

问题定义:论文旨在理解大型语言模型(LLMs)如何在上下文中学习新任务,即上下文学习(ICL)的机制。现有的主流解释包括任务选择、元学习以及任务组合。任务选择假设认为LLM通过识别演示中的任务并泛化到prompt来完成ICL。元学习假设认为LLM在预训练阶段学习了一种学习算法,并在ICL中应用。这些假设缺乏足够的实验验证,并且存在一些反例。

核心思路:论文的核心思路是验证LLM是否通过组合预训练期间学习到的任务来实现ICL。这意味着LLM不是简单地选择一个已知的任务,而是将多个预训练任务组合起来,以适应新的上下文任务。这种组合能力使得LLM能够灵活地处理各种ICL场景。

技术框架:论文采用了一系列文本分类任务作为实验平台。首先,设计实验来验证或证伪任务选择和元学习假设。然后,设计实验来支持任务组合假设。具体来说,通过控制演示示例的构成,观察LLM在不同任务组合下的表现。例如,可以设计一些演示示例,这些示例需要LLM同时具备情感分析和主题分类的能力,从而验证LLM是否能够将这两个任务组合起来。

关键创新:论文的关键创新在于提出了“结构化任务假设”,即LLM通过组合预训练任务来实现上下文学习。与以往的假设不同,该假设强调了LLM在预训练阶段学习到的任务之间的相互作用和组合能力。这种组合能力使得LLM能够更加灵活地适应新的上下文任务,从而实现更有效的ICL。

关键设计:论文的关键设计在于实验的设计。通过精心设计的文本分类任务和演示示例,论文能够有效地控制LLM所面临的任务组合,并观察LLM的表现。例如,论文可能会使用一些对抗性的示例,这些示例旨在迷惑LLM,使其无法正确地识别任务。通过观察LLM在这些对抗性示例上的表现,可以更好地理解LLM的ICL机制。

📊 实验亮点

实验结果表明,LLM在上下文学习中并非简单地选择或学习新任务,而是通过组合预训练期间学习到的任务来完成。论文通过反例驳斥了任务选择和元学习假设,并提供了支持任务组合假设的证据。这些发现为理解LLM的ICL机制提供了新的视角。

🎯 应用场景

该研究成果有助于更好地理解大型语言模型的上下文学习能力,并为改进ICL技术提供指导。潜在应用包括:开发更高效的ICL算法,提升LLM在少样本场景下的性能,以及设计更可靠的LLM应用,例如智能客服、文本摘要和机器翻译等。

📄 摘要(原文)

Large language models (LLMs) exhibit an intriguing ability to learn a novel task from in-context examples presented in a demonstration, termed in-context learning (ICL). Understandably, a swath of research has been dedicated to uncovering the theories underpinning ICL. One popular hypothesis explains ICL by task selection. LLMs identify the task based on the demonstration and generalize it to the prompt. Another popular hypothesis is that ICL is a form of meta-learning, i.e., the models learn a learning algorithm at pre-training time and apply it to the demonstration. Finally, a third hypothesis argues that LLMs use the demonstration to select a composition of tasks learned during pre-training to perform ICL. In this paper, we empirically explore these three hypotheses that explain LLMs' ability to learn in context with a suite of experiments derived from common text classification tasks. We invalidate the first two hypotheses with counterexamples and provide evidence in support of the last hypothesis. Our results suggest an LLM could learn a novel task in context via composing tasks learned during pre-training.