In-Context Function Learning in Large Language Models

📄 arXiv: 2602.11863v1 📥 PDF

作者: Elif Akata, Konstantinos Voudouris, Vincent Fortuin, Eric Schulz

分类: cs.LG

发布日期: 2026-02-12


💡 一句话要点

利用高斯过程视角分析大语言模型的上下文函数学习能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文学习 高斯过程 归纳偏置 函数学习

📋 核心要点

  1. 现有方法缺乏对大语言模型上下文学习机制的深入理解,难以解释其泛化能力。
  2. 该研究将大语言模型的上下文学习类比为高斯过程回归,通过控制数据生成过程来分析其学习行为。
  3. 实验表明,LLM的学习曲线受函数生成核的影响,且可以通过后训练调整模型的归纳偏置。

📝 摘要(中文)

大型语言模型(LLMs)能够在推理时通过少量演示进行学习,本文从高斯过程(GP)的角度研究了这种上下文学习现象。作者构建了受控实验,模型观察从已知GP先验中提取的多元标量值函数样本序列。通过演示次数评估预测误差,并与两个基准进行比较:(i)经验GP回归学习器,提供可实现误差的下界;(ii)1-最近邻(1-NN)规则的预期误差,提供数据驱动的上界。结果表明,LLM的学习曲线受函数生成核的强烈影响,并随着演示次数的增加接近GP下界。进一步使用基于似然的分析研究了这些模型的归纳偏置,发现LLM预测在不太平滑的GP核下最有可能。最后,探索了后训练是否可以改变这些归纳偏置,并提高从具有更平滑核的GP中采样的函数的样本效率。发现强化学习和监督微调都可以有效地将归纳偏置转移到训练数据的方向。总而言之,该框架量化了LLM表现得像GP学习器的程度,并为指导其在连续函数学习任务中的归纳偏置提供了工具。

🔬 方法详解

问题定义:论文旨在理解大型语言模型(LLMs)如何在上下文中学习函数,即通过少量示例进行学习并泛化到新的输入。现有方法缺乏对LLM这种学习方式的理论解释,特别是其归纳偏置如何影响学习效果。

核心思路:论文的核心思路是将LLM的上下文学习过程类比为高斯过程(GP)回归。通过控制数据生成过程(即从已知的GP先验中采样函数),可以系统地研究LLM的学习行为,并将其与GP回归的理论下界进行比较。这种类比有助于揭示LLM的归纳偏置以及如何调整这些偏置。

技术框架:整体框架包括以下几个主要步骤:1) 数据生成:从具有不同核函数(例如,RBF核,Matérn核)的GP先验中生成函数样本。2) 上下文学习:将生成的函数样本作为上下文示例提供给LLM,并要求LLM预测新的输入值。3) 性能评估:通过计算预测误差来评估LLM的学习效果,并将其与GP回归的理论下界(通过经验GP回归学习器获得)和1-NN规则的性能进行比较。4) 归纳偏置分析:使用基于似然的方法分析LLM的归纳偏置,即LLM更倾向于哪种类型的函数(对应于不同的GP核)。5) 后训练:使用强化学习或监督微调来调整LLM的归纳偏置,以提高其在特定类型的函数上的学习效果。

关键创新:该研究的关键创新在于将LLM的上下文学习与GP回归联系起来,从而提供了一个理论框架来分析和理解LLM的学习行为。通过这种类比,可以量化LLM表现得像GP学习器的程度,并为指导其在连续函数学习任务中的归纳偏置提供了工具。

关键设计:关键设计包括:1) 使用不同的GP核函数来控制函数的平滑度,从而研究LLM对不同类型函数的学习能力。2) 使用经验GP回归学习器作为性能下界,以评估LLM的学习效率。3) 使用基于似然的方法来量化LLM的归纳偏置。4) 使用强化学习和监督微调来调整LLM的归纳偏置,并评估其对学习效果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的学习曲线受函数生成核的强烈影响,并随着演示次数的增加接近GP下界。通过后训练,可以有效地将LLM的归纳偏置转移到训练数据的方向,从而提高其在特定类型函数上的学习效果。例如,通过微调,LLM在平滑函数上的学习效率得到了显著提升。

🎯 应用场景

该研究成果可应用于提升大语言模型在函数逼近、时间序列预测、控制系统等领域的性能。通过理解和调整LLM的归纳偏置,可以使其更好地适应特定任务的数据分布,从而提高样本效率和泛化能力。此外,该研究也为开发更高效的上下文学习算法提供了理论指导。

📄 摘要(原文)

Large language models (LLMs) can learn from a few demonstrations provided at inference time. We study this in-context learning phenomenon through the lens of Gaussian Processes (GPs). We build controlled experiments where models observe sequences of multivariate scalar-valued function samples drawn from known GP priors. We evaluate prediction error in relation to the number of demonstrations and compare against two principled references: (i) an empirical GP-regression learner that gives a lower bound on achievable error, and (ii) the expected error of a 1-nearest-neighbor (1-NN) rule, which gives a data-driven upper bound. Across model sizes, we find that LLM learning curves are strongly influenced by the function-generating kernels and approach the GP lower bound as the number of demonstrations increases. We then study the inductive biases of these models using a likelihood-based analysis. We find that LLM predictions are most likely under less smooth GP kernels. Finally, we explore whether post-training can shift these inductive biases and improve sample-efficiency on functions sampled from GPs with smoother kernels. We find that both reinforcement learning and supervised fine-tuning can effectively shift inductive biases in the direction of the training data. Together, our framework quantifies the extent to which LLMs behave like GP learners and provides tools for steering their inductive biases for continuous function learning tasks.