Stories in Space: In-Context Learning Trajectories in Conceptual Belief Space

📄 arXiv: 2605.12412v1 📥 PDF

作者: Eric Bigelow, Raphaël Sarfati, Daniel Wurgaft, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-12


💡 一句话要点

提出概念信念空间,以几何视角理解LLM上下文学习中的信念动态变化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 上下文学习 信念更新 概念空间 几何表征

📋 核心要点

  1. 现有方法难以解释LLM上下文学习中潜在假设空间的结构,限制了对模型行为的深入理解。
  2. 论文提出LLM在一个低维几何空间(概念信念空间)中进行信念更新,上下文学习对应于该空间的轨迹。
  3. 实验表明,信念更新轨迹位于低维流形上,且模型内部表征与行为一致,干预表征可预测信念轨迹。

📝 摘要(中文)

大型语言模型(LLMs)在上下文中更新其行为,这可以被视为一种贝叶斯推断形式。然而,这种推断所作用的潜在假设空间的结构仍然不清楚。本文提出,LLMs将信念分配到一个低维几何空间——概念信念空间,并且上下文学习对应于通过这个空间的轨迹,因为信念会随着时间的推移而更新。以故事理解作为动态信念更新的自然环境,我们结合行为和表征分析来研究这些轨迹。我们发现(1)信念更新可以很好地描述为低维、结构化流形上的轨迹;(2)这种结构一致地反映在模型行为和内部表征中,并且可以使用简单的线性探针进行解码以预测行为;(3)对这些表征的干预可以因果地引导信念轨迹,其效果可以从概念空间的几何形状中预测。总之,我们的结果提供了一种LLMs中信念动态的几何解释,将上下文学习的贝叶斯解释建立在结构化的概念表征之上。

🔬 方法详解

问题定义:论文旨在理解大型语言模型(LLMs)在上下文学习过程中如何更新其信念。现有的研究缺乏对LLM内部信念状态的有效建模,以及信念更新过程的几何解释。这使得我们难以理解LLM如何根据上下文动态调整其行为,以及如何有效地干预和控制LLM的行为。

核心思路:论文的核心思路是将LLM的信念状态表示为一个低维的“概念信念空间”,并将上下文学习过程视为该空间中的轨迹。通过分析这些轨迹的几何特性,可以更好地理解LLM如何根据上下文信息更新其信念,并预测其未来的行为。这种几何视角为理解LLM的上下文学习提供了一种新的框架。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用故事理解任务作为研究LLM信念更新的自然环境。2) 通过行为分析和表征分析,研究LLM在故事理解过程中的信念更新轨迹。3) 使用线性探针解码LLM的内部表征,以预测其行为。4) 对LLM的内部表征进行干预,并观察其对信念轨迹的影响。

关键创新:论文最重要的技术创新点在于提出了“概念信念空间”的概念,并将其应用于理解LLM的上下文学习过程。与以往的研究不同,该论文没有将LLM视为一个黑盒,而是试图揭示其内部信念状态的结构和动态变化。此外,该论文还通过实验验证了概念信念空间的有效性,并展示了如何使用该框架来预测和控制LLM的行为。

关键设计:论文的关键设计包括:1) 选择故事理解任务,因为它自然地涉及动态信念更新。2) 使用低维流形来建模概念信念空间,这简化了分析并提高了可解释性。3) 使用线性探针来解码LLM的内部表征,这避免了复杂的非线性模型,并提高了效率。4) 设计干预实验,以验证概念信念空间对LLM行为的因果影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的信念更新轨迹可以很好地描述为低维流形上的运动。通过线性探针,可以从LLM的内部表征中解码出其信念状态,并预测其行为。对LLM内部表征的干预可以因果地引导信念轨迹,且效果可以从概念空间的几何形状中预测。

🎯 应用场景

该研究成果可应用于提升LLM在对话系统、智能助手等领域的表现,使其能更准确地理解用户意图并做出相应反应。此外,该研究为LLM的可解释性和可控性提供了新的思路,有助于开发更安全可靠的AI系统。

📄 摘要(原文)

Large Language Models (LLMs) update their behavior in context, which can be viewed as a form of Bayesian inference. However, the structure of the latent hypothesis space over which this inference operates remains unclear. In this work, we propose that LLMs assign beliefs over a low-dimensional geometric space - a conceptual belief space - and that in-context learning corresponds to a trajectory through this space as beliefs are updated over time. Using story understanding as a natural setting for dynamic belief updating, we combine behavioral and representational analyses to study these trajectories. We find that (1) belief updates are well-described as trajectories on low-dimensional, structured manifolds; (2) this structure is reflected consistently in both model behavior and internal representations and can be decoded with simple linear probes to predict behavior; and (3) interventions on these representations causally steer belief trajectories, with effects that can be predicted from the geometry of the conceptual space. Together, our results provide a geometric account of belief dynamics in LLMs, grounding Bayesian interpretations of in-context learning in structured conceptual representations.