Probability Consistency in Large Language Models: Theoretical Foundations Meet Empirical Discrepancies

📄 arXiv: 2505.08739v1 📥 PDF

作者: Xiaoliang Luo, Xinyi Xu, Michael Ramscar, Bradley C. Love

分类: cs.CL

发布日期: 2025-05-13


💡 一句话要点

揭示大语言模型概率一致性偏差:理论完备性与实证差异分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 概率一致性 序列困惑度 自注意力机制 位置偏差

📋 核心要点

  1. 现有研究缺乏对LLM在不同token顺序下概率一致性的严谨理论分析和评估。
  2. 论文证明了序列困惑度在任意token顺序下应保持不变,为评估LLM概率一致性提供了理论基础。
  3. 实验发现GPT-2在不同token顺序训练下存在系统性偏差,揭示了自注意力机制中的位置和局部性偏差。

📝 摘要(中文)

本文探讨了自回归大语言模型(LLM)在不同token顺序的序列上训练时,是否能学习到一致的概率分布。我们从理论上证明,对于任何定义明确的概率分布,序列困惑度在任何分解方式下都是不变的,包括前向、后向或任意排列。这一结果为研究LLM如何从数据中学习奠定了严谨的理论基础,并定义了经验评估的原则性协议。应用这些协议,我们表明先前研究排序效应的论文存在严重的方法缺陷。我们在科学文本上,使用前向、后向和任意排列的顺序重新训练了GPT-2模型。我们发现所有排序都存在与理论不变性的系统性偏差,其中任意排列与前向和后向模型差异最大,而后两者基本一致(但不完全)。偏差可追溯到自注意力机制的差异,反映了处理中的位置和局部性偏差。我们的理论和实证结果为理解LLM中的位置偏差提供了新途径,并提出了检测LLM概率分布何时不一致从而不可信的方法。

🔬 方法详解

问题定义:现有研究对于大语言模型在不同token顺序下训练时,其学习到的概率分布是否一致缺乏深入的理论分析和实证评估。以往研究排序效应的方法存在缺陷,无法准确衡量LLM的概率一致性。因此,需要一种严谨的方法来评估LLM在不同token顺序下的学习能力,并揭示潜在的偏差来源。

核心思路:论文的核心思路是基于信息论中的序列困惑度不变性原理。该原理指出,对于一个定义明确的概率分布,无论序列以何种顺序(前向、后向、任意排列)进行分解,其困惑度应该保持不变。通过比较LLM在不同token顺序下训练后的困惑度,可以评估其概率分布的一致性。如果LLM学习到的概率分布与理论预测不符,则表明存在偏差。

技术框架:论文的技术框架主要包括以下几个步骤:1) 理论证明:形式化证明序列困惑度在任意token顺序下的不变性。2) 实验设计:设计实验,使用前向、后向和任意排列的token顺序训练GPT-2模型。3) 评估指标:使用困惑度作为评估LLM概率一致性的主要指标。4) 偏差分析:分析不同token顺序训练的模型在自注意力机制上的差异,以揭示偏差的来源。

关键创新:论文的关键创新在于:1) 提出了一个严谨的理论框架,用于评估LLM在不同token顺序下的概率一致性。2) 指出了以往研究排序效应的方法缺陷,并提出了改进的评估协议。3) 通过实验揭示了GPT-2在不同token顺序训练下存在的系统性偏差,并将其归因于自注意力机制中的位置和局部性偏差。

关键设计:论文的关键设计包括:1) 使用GPT-2作为实验对象,因为它是一个广泛使用的自回归语言模型。2) 使用科学文本作为训练数据,因为它具有一定的结构性和语义连贯性。3) 使用困惑度作为评估指标,因为它能够直接反映LLM对序列概率的预测能力。4) 通过分析自注意力权重,揭示不同token顺序训练的模型在处理位置信息上的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-2在不同token顺序训练下存在显著的概率一致性偏差。具体而言,任意排列的token顺序训练的模型与前向和后向模型差异最大,而后两者之间的差异相对较小。偏差主要来源于自注意力机制,反映了模型在处理位置信息上的偏差。这些发现为理解LLM的内部机制和改进其性能提供了重要的线索。

🎯 应用场景

该研究成果可应用于评估和改进大语言模型的可靠性和可信度。通过检测LLM概率分布的不一致性,可以发现模型潜在的偏差,并采取相应的措施进行纠正。此外,该研究还可以为设计更鲁棒、更公平的LLM提供指导,使其在各种应用场景中都能表现出稳定和可靠的性能。

📄 摘要(原文)

Can autoregressive large language models (LLMs) learn consistent probability distributions when trained on sequences in different token orders? We prove formally that for any well-defined probability distribution, sequence perplexity is invariant under any factorization, including forward, backward, or arbitrary permutations. This result establishes a rigorous theoretical foundation for studying how LLMs learn from data and defines principled protocols for empirical evaluation. Applying these protocols, we show that prior studies examining ordering effects suffer from critical methodological flaws. We retrain GPT-2 models across forward, backward, and arbitrary permuted orders on scientific text. We find systematic deviations from theoretical invariance across all orderings with arbitrary permutations strongly deviating from both forward and backward models, which largely (but not completely) agreed with one another. Deviations were traceable to differences in self-attention, reflecting positional and locality biases in processing. Our theoretical and empirical results provide novel avenues for understanding positional biases in LLMs and suggest methods for detecting when LLMs' probability distributions are inconsistent and therefore untrustworthy.