Manifold Trajectories in Next-Token Prediction: From Replicator Dynamics to Softmax Equilibrium

📄 arXiv: 2508.21186v1 📥 PDF

作者: Christopher R. Lee-Jenkins

分类: cs.LG, cs.AI, math.DS

发布日期: 2025-08-28


💡 一句话要点

研究Transformer解码过程中的概率单纯形轨迹,揭示Softmax均衡的动态特性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 解码策略 概率单纯形 复制器动态 Softmax均衡

📋 核心要点

  1. 大型语言模型解码过程常被简化为token评分和softmax归一化,缺乏对其内在动态的深入理解。
  2. 论文将解码过程建模为概率单纯形上的约束变分问题,并用复制器流来描述token分布的演化轨迹。
  3. 研究表明,温度参数精确地重新缩放了轨迹上的时间,而top-k和nucleus采样将轨迹限制在单纯形的特定面上。

📝 摘要(中文)

本文将大型语言模型的解码过程描述为在概率单纯形上的受约束变分原理,通过softmax进行token评分和归一化。文章给出了一个关于此步骤的最小自包含解释。离散的、尊重归一化的上升过程是经典的多重权重(熵镜像)更新;其连续时间极限是复制器流。基于这些要素,证明了对于固定的上下文和温度,下一个token的分布遵循单纯形内的平滑轨迹,并收敛到softmax均衡。这形式化了常见的“流形遍历”直觉,使其在输出分布层面得以体现。该分析产生了精确的、面向实践的结果:温度作为沿同一轨迹的时间的精确重新缩放,而top-k和nucleus采样将流限制为具有相同保证的面。文章还概述了对路径依赖性分数调整的受控描述及其与循环式、幻觉式行为的联系。文章未对训练动态或内部表征做出任何声明,这些内容将推迟到未来的工作中。

🔬 方法详解

问题定义:大型语言模型在生成文本时,解码阶段的核心任务是根据上下文预测下一个token的概率分布。现有的方法通常将此过程简化为对token进行评分,然后使用softmax函数进行归一化。然而,这种简化忽略了token概率分布在单纯形内的动态演化过程,缺乏对其内在机制的深入理解。现有方法难以解释温度参数、top-k采样等策略对生成结果的影响,也难以解释模型出现幻觉等现象。

核心思路:论文的核心思路是将解码过程视为在概率单纯形上的一个受约束的变分问题。通过将softmax操作与复制器动态(replicator dynamics)联系起来,论文将token概率分布的演化过程描述为一个连续时间上的流(flow)。这种视角能够更清晰地揭示token概率分布在单纯形内的轨迹,并解释温度参数、采样策略等因素对轨迹的影响。

技术框架:论文的技术框架主要包含以下几个部分: 1. 将解码过程建模为概率单纯形上的约束变分问题。 2. 将离散的softmax操作与经典的多重权重更新联系起来。 3. 推导出连续时间极限下的复制器流方程。 4. 分析token概率分布在单纯形内的轨迹,并证明其收敛到softmax均衡。 5. 研究温度参数、top-k采样等策略对轨迹的影响。 6. 探讨路径依赖性分数调整与模型幻觉现象的联系。

关键创新:论文的关键创新在于将大型语言模型的解码过程与复制器动态联系起来,从而提供了一种新的视角来理解token概率分布的演化过程。这种视角能够更清晰地揭示token概率分布在单纯形内的轨迹,并解释温度参数、采样策略等因素对轨迹的影响。此外,论文还探讨了路径依赖性分数调整与模型幻觉现象的联系,为理解和解决模型幻觉问题提供了一种新的思路。

关键设计:论文的关键设计包括: 1. 使用复制器流方程来描述token概率分布的演化过程。 2. 将温度参数解释为沿轨迹的时间的重新缩放。 3. 将top-k和nucleus采样解释为将轨迹限制在单纯形的特定面上。 4. 使用路径依赖性分数调整来模拟模型幻觉现象。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文证明了在固定上下文和温度下,下一个token的分布遵循单纯形内的平滑轨迹,并收敛到softmax均衡。温度参数被证明可以精确地重新缩放轨迹上的时间,而top-k和nucleus采样将轨迹限制在单纯形的特定面上。这些结果为理解和控制大型语言模型的生成过程提供了有力的理论支持。

🎯 应用场景

该研究成果可应用于改进大型语言模型的解码策略,例如通过调整温度参数或采样策略来控制生成文本的多样性和质量。此外,该研究还为理解和解决模型幻觉问题提供了一种新的思路,有助于提高生成文本的可靠性。该研究的理论框架也有助于分析和优化其他基于概率模型的生成任务。

📄 摘要(原文)

Decoding in large language models is often described as scoring tokens and normalizing with softmax. We give a minimal, self-contained account of this step as a constrained variational principle on the probability simplex. The discrete, normalization-respecting ascent is the classical multiplicative-weights (entropic mirror) update; its continuous-time limit is the replicator flow. From these ingredients we prove that, for a fixed context and temperature, the next-token distribution follows a smooth trajectory inside the simplex and converges to the softmax equilibrium. This formalizes the common ``manifold traversal'' intuition at the output-distribution level. The analysis yields precise, practice-facing consequences: temperature acts as an exact rescaling of time along the same trajectory, while top-k and nucleus sampling restrict the flow to a face with identical guarantees. We also outline a controlled account of path-dependent score adjustments and their connection to loop-like, hallucination-style behavior. We make no claims about training dynamics or internal representations; those are deferred to future work.