Stories in Space: In-Context Learning Trajectories in Conceptual Belief Space

作者: Eric Bigelow, Raphaël Sarfati, Daniel Wurgaft, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-12

💡 一句话要点

提出概念信念空间，以几何视角理解LLM上下文学习中的信念动态变化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 上下文学习 信念更新 概念空间 几何表征

📋 核心要点

现有方法难以解释LLM上下文学习中潜在假设空间的结构，限制了对模型行为的深入理解。
论文提出LLM在一个低维几何空间（概念信念空间）中进行信念更新，上下文学习对应于该空间的轨迹。
实验表明，信念更新轨迹位于低维流形上，且模型内部表征与行为一致，干预表征可预测信念轨迹。

📝 摘要（中文）

大型语言模型(LLMs)在上下文中更新其行为，这可以被视为一种贝叶斯推断形式。然而，这种推断所作用的潜在假设空间的结构仍然不清楚。本文提出，LLMs将信念分配到一个低维几何空间——概念信念空间，并且上下文学习对应于通过这个空间的轨迹，因为信念会随着时间的推移而更新。以故事理解作为动态信念更新的自然环境，我们结合行为和表征分析来研究这些轨迹。我们发现(1)信念更新可以很好地描述为低维、结构化流形上的轨迹；(2)这种结构一致地反映在模型行为和内部表征中，并且可以使用简单的线性探针进行解码以预测行为；(3)对这些表征的干预可以因果地引导信念轨迹，其效果可以从概念空间的几何形状中预测。总之，我们的结果提供了一种LLMs中信念动态的几何解释，将上下文学习的贝叶斯解释建立在结构化的概念表征之上。

🔬 方法详解

问题定义：论文旨在理解大型语言模型（LLMs）在上下文学习过程中如何更新其信念。现有的研究缺乏对LLM内部信念状态的有效建模，以及信念更新过程的几何解释。这使得我们难以理解LLM如何根据上下文动态调整其行为，以及如何有效地干预和控制LLM的行为。

核心思路：论文的核心思路是将LLM的信念状态表示为一个低维的“概念信念空间”，并将上下文学习过程视为该空间中的轨迹。通过分析这些轨迹的几何特性，可以更好地理解LLM如何根据上下文信息更新其信念，并预测其未来的行为。这种几何视角为理解LLM的上下文学习提供了一种新的框架。

技术框架：论文的技术框架主要包括以下几个步骤：1) 使用故事理解任务作为研究LLM信念更新的自然环境。2) 通过行为分析和表征分析，研究LLM在故事理解过程中的信念更新轨迹。3) 使用线性探针解码LLM的内部表征，以预测其行为。4) 对LLM的内部表征进行干预，并观察其对信念轨迹的影响。

关键创新：论文最重要的技术创新点在于提出了“概念信念空间”的概念，并将其应用于理解LLM的上下文学习过程。与以往的研究不同，该论文没有将LLM视为一个黑盒，而是试图揭示其内部信念状态的结构和动态变化。此外，该论文还通过实验验证了概念信念空间的有效性，并展示了如何使用该框架来预测和控制LLM的行为。

关键设计：论文的关键设计包括：1) 选择故事理解任务，因为它自然地涉及动态信念更新。2) 使用低维流形来建模概念信念空间，这简化了分析并提高了可解释性。3) 使用线性探针来解码LLM的内部表征，这避免了复杂的非线性模型，并提高了效率。4) 设计干预实验，以验证概念信念空间对LLM行为的因果影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM的信念更新轨迹可以很好地描述为低维流形上的运动。通过线性探针，可以从LLM的内部表征中解码出其信念状态，并预测其行为。对LLM内部表征的干预可以因果地引导信念轨迹，且效果可以从概念空间的几何形状中预测。

🎯 应用场景

该研究成果可应用于提升LLM在对话系统、智能助手等领域的表现，使其能更准确地理解用户意图并做出相应反应。此外，该研究为LLM的可解释性和可控性提供了新的思路，有助于开发更安全可靠的AI系统。

📄 摘要（原文）

Large Language Models (LLMs) update their behavior in context, which can be viewed as a form of Bayesian inference. However, the structure of the latent hypothesis space over which this inference operates remains unclear. In this work, we propose that LLMs assign beliefs over a low-dimensional geometric space - a conceptual belief space - and that in-context learning corresponds to a trajectory through this space as beliefs are updated over time. Using story understanding as a natural setting for dynamic belief updating, we combine behavioral and representational analyses to study these trajectories. We find that (1) belief updates are well-described as trajectories on low-dimensional, structured manifolds; (2) this structure is reflected consistently in both model behavior and internal representations and can be decoded with simple linear probes to predict behavior; and (3) interventions on these representations causally steer belief trajectories, with effects that can be predicted from the geometry of the conceptual space. Together, our results provide a geometric account of belief dynamics in LLMs, grounding Bayesian interpretations of in-context learning in structured conceptual representations.

Stories in Space: In-Context Learning Trajectories in Conceptual Belief Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理