Is In-Context Learning Learning?

📄 arXiv: 2509.10414v3 📥 PDF

作者: Adrian de Wynter

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-12 (更新: 2026-01-26)

备注: Accepted to ICLR 2026


💡 一句话要点

研究表明上下文学习是一种有效的学习范式,但其泛化能力有限

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 自回归模型 泛化能力 prompt工程 大规模实验

📋 核心要点

  1. 现有研究对上下文学习(ICL)是否真正具备学习能力存在争议,ICL依赖于先验知识和示例,而非显式编码。
  2. 论文通过数学论证和大规模实验分析,论证ICL在数学上构成学习,但其泛化能力受到多种因素限制。
  3. 实验结果表明,ICL的准确性在大量示例下对多种因素不敏感,但易受prompt中的规律性影响,泛化能力有限。

📝 摘要(中文)

上下文学习(ICL)允许一些自回归模型通过下一个token预测来解决任务,而无需进一步的训练。这导致了关于这些模型仅通过prompt中的少量示例(few-shot)就能解决(学习)未见过的任务的说法。然而,演绎并不总是意味着学习,因为ICL并没有显式地编码给定的观察。相反,模型依赖于它们的先验知识和给定的示例(如果有的话)。我们认为,从数学上讲,ICL确实构成了学习,但其完整的表征需要经验性的工作。然后,我们对ICL进行了大规模的分析,消融或考虑了记忆、预训练、分布偏移以及prompt风格和措辞。我们发现ICL是一种有效的学习范式,但其学习和泛化到未见过的任务的能力有限。我们注意到,在示例变得越来越多的极限情况下,准确性对示例分布、模型、prompt风格和输入的语言特征不敏感。相反,它从prompt中的规律性中推导出模式,这导致了分布敏感性,尤其是在诸如思维链(chain-of-thought)之类的prompt风格中。鉴于形式上相似的任务上的各种准确性,我们得出结论,自回归的ad-hoc编码不是一种鲁棒的机制,并表明其全能的泛化能力有限。

🔬 方法详解

问题定义:论文旨在研究上下文学习(ICL)是否真正具备学习能力,以及其泛化能力的局限性。现有方法主要关注ICL在特定任务上的表现,缺乏对其内在机制和泛化能力的深入分析。现有研究对ICL是否依赖于记忆、预训练数据分布等因素存在争议,需要进一步的实验验证。

核心思路:论文的核心思路是通过大规模的实验分析,系统地研究ICL的各种影响因素,包括记忆、预训练、分布偏移和prompt风格等。通过消融实验和控制变量法,探究这些因素对ICL性能的影响,从而揭示ICL的内在机制和泛化能力的局限性。论文还关注了在大量示例的情况下,ICL的性能对各种因素的敏感性。

技术框架:论文采用大规模实验分析的框架,主要包括以下几个阶段: 1. 数据准备:构建包含各种任务和数据集的实验环境,用于评估ICL的性能。 2. 模型选择:选择具有代表性的自回归模型,如GPT系列模型,作为ICL的学习器。 3. 实验设计:设计一系列消融实验和控制变量实验,用于研究各种因素对ICL性能的影响。 4. 结果分析:对实验结果进行统计分析,评估ICL的性能和泛化能力,并揭示其内在机制。

关键创新:论文的关键创新在于对ICL进行了系统而全面的分析,揭示了其泛化能力的局限性。与现有研究相比,论文更加关注ICL的内在机制和各种影响因素,而不仅仅是其在特定任务上的表现。论文还提出了ICL易受prompt中的规律性影响的观点,为理解ICL的性能提供了新的视角。

关键设计:论文的关键设计包括: 1. 消融实验:通过移除或修改某些因素,如记忆、预训练数据等,来评估其对ICL性能的影响。 2. 控制变量实验:通过控制其他变量不变,来研究特定因素对ICL性能的影响。 3. 大规模实验:通过在大量任务和数据集上进行实验,来提高结果的可靠性和泛化能力。 4. prompt工程:设计不同的prompt风格和措辞,来研究其对ICL性能的影响。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,ICL是一种有效的学习范式,但在学习和泛化到未见过的任务的能力方面存在局限性。在示例数量增多的情况下,准确性对示例分布、模型、prompt风格和输入语言特征不敏感。然而,ICL容易受到prompt中规律性的影响,尤其是在思维链prompt风格中。在形式相似的任务上,ICL的准确性差异较大,表明自回归的ad-hoc编码不是一种鲁棒的机制。

🎯 应用场景

该研究成果可应用于改进大型语言模型的上下文学习能力,例如,通过优化prompt设计、增强模型的记忆能力或减少对预训练数据的依赖,从而提高模型在各种任务上的泛化性能。此外,该研究还可以帮助开发者更好地理解和利用上下文学习,从而开发出更高效、更可靠的AI应用。

📄 摘要(原文)

In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.