Representational Curvature Modulates Behavioral Uncertainty in Large Language Models

📄 arXiv: 2604.23985v1 📥 PDF

作者: Jack King, Evelina Fedorenko, Eghbal A. Hosseini

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-04-27


💡 一句话要点

研究表明表征曲率调节大型语言模型中的行为不确定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 表征学习 上下文曲率 行为不确定性 几何深度学习

📋 核心要点

  1. 现有研究缺乏表征轨迹与LLM token级别行为的直接联系,难以解释模型预测的不确定性。
  2. 论文核心思想是将表征轨迹的上下文曲率与下一个token的熵联系起来,揭示几何特征与行为不确定性的关系。
  3. 实验表明,上下文曲率与熵相关,且通过操纵曲率可以调节熵,正则化表征可降低token熵。

📝 摘要(中文)

在自回归大型语言模型(LLMs)中,时间拉直理论解释了下一个token预测目标如何塑造表征。模型学习逐步拉直输入序列在各层中的表征轨迹,可能通过线性外推促进下一个token的预测。然而,这种轨迹与token级别行为之间的直接联系一直缺失。本文通过将上下文曲率(一种几何度量,衡量表征轨迹在最近上下文中弯曲的程度)与下一个token的熵联系起来,弥补了这一缺失。在两个模型(GPT-2 XL和Pythia-2.8B)中,上下文曲率与熵相关,并且这种关系在训练过程中出现。扰动实验揭示了选择性依赖:通过轨迹对齐干预操纵曲率可以可靠地调节熵,而几何上未对齐的扰动没有效果。最后,在训练期间正则化表征以使其更直,可以适度降低token级别的熵,而不会降低验证损失。这些结果表明,轨迹曲率是一种与任务对齐的表征特征,会影响LLM中的行为不确定性。

🔬 方法详解

问题定义:大型语言模型在预测下一个token时存在不确定性,现有方法难以解释这种不确定性与模型内部表征之间的关系。特别是,如何量化和利用模型内部的几何结构(如表征轨迹的曲率)来理解和控制这种不确定性是一个关键问题。现有方法缺乏对表征轨迹曲率与token级别行为之间联系的深入研究。

核心思路:论文的核心思路是将表征轨迹的上下文曲率作为一种几何度量,并将其与下一个token的熵联系起来。通过研究上下文曲率与熵之间的关系,可以揭示模型内部表征的几何特征如何影响其行为不确定性。这种思路基于时间拉直理论,认为模型通过拉直表征轨迹来简化预测任务。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 计算LLM中表征轨迹的上下文曲率;2) 计算下一个token的熵;3) 分析上下文曲率与熵之间的相关性;4) 进行扰动实验,通过操纵曲率来调节熵;5) 通过正则化表征来降低token级别的熵。使用了GPT-2 XL和Pythia-2.8B两个模型进行实验。

关键创新:该研究的关键创新在于建立了表征轨迹的上下文曲率与下一个token的熵之间的直接联系。通过这种联系,可以更好地理解LLM内部表征的几何特征如何影响其行为不确定性。此外,该研究还通过扰动实验验证了这种联系的因果性,并提出了通过正则化表征来降低token熵的方法。

关键设计:上下文曲率的计算基于表征轨迹在连续时间步上的变化率。熵的计算基于模型预测的下一个token的概率分布。扰动实验通过在表征空间中添加或减去与轨迹对齐的向量来操纵曲率。正则化项被添加到损失函数中,以鼓励表征轨迹更加平直。具体参数设置和损失函数细节在论文中有详细描述,此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,上下文曲率与下一个token的熵之间存在显著相关性。通过轨迹对齐的扰动可以有效地调节熵,而几何上未对齐的扰动没有效果。在训练过程中正则化表征可以适度降低token级别的熵,而不会显著降低验证损失。具体性能提升幅度未知。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可控性和可靠性。通过理解和控制表征轨迹的曲率,可以降低模型预测的不确定性,提高生成文本的质量。此外,该研究还可以为模型的可解释性提供新的视角,帮助我们更好地理解LLM的内部工作机制。

📄 摘要(原文)

In autoregressive large language models (LLMs), temporal straightening offers an account of how the next-token prediction objective shapes representations. Models learn to progressively straighten the representational trajectory of input sequences across layers, potentially facilitating next-token prediction via linear extrapolation. However, a direct link between this trajectory and token-level behavior has been missing. We provide such a link by relating contextual curvature-a geometric measure of how sharply the representational trajectory bends over recent context-to next-token entropy. Across two models (GPT-2 XL and Pythia-2.8B), contextual curvature is correlated with entropy, and this relationship emerges during training. Perturbation experiments reveal selective dependence: manipulating curvature through trajectory-aligned interventions reliably modulates entropy, while geometrically misaligned perturbations have no effect. Finally, regularizing representations to be straighter during training modestly reduces token-level entropy without degrading validation loss. These results identify trajectory curvature as a task-aligned representational feature that influences behavioral uncertainty in LLMs.