The Illusion of Stochasticity in LLMs

📄 arXiv: 2604.06543v1 📥 PDF

作者: Xiangming Gu, Soham De, Michalis Titsias, Larisa Markeeva, Petar Veličković, Razvan Pascanu

分类: cs.CL, cs.LG

发布日期: 2026-04-08

备注: Under review


💡 一句话要点

大型语言模型在随机采样方面存在缺陷,影响其作为智能体的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 随机采样 智能体 概率分布 实证分析

📋 核心要点

  1. 大型语言模型在作为智能体时,需要进行可靠的随机采样,但现有LLM在此方面存在不足。
  2. 论文核心在于揭示LLM无法准确地将其内部概率估计转化为随机输出,导致采样偏差。
  3. 实验证明,即使是强大的LLM,在直接从特定分布采样时也存在根本缺陷,无法有效模拟随机性。

📝 摘要(中文)

本文揭示了大型语言模型(LLMs)作为智能体运行时,可靠的随机采样是一个基本但尚未实现的要求。智能体系统通常需要从分布中进行采样,而这些分布往往是从观测数据中推断出来的,这个过程需要由LLM来模拟。这导致了一个独特的失败点:标准的强化学习智能体依赖于外部采样机制,而LLM无法将其内部概率估计映射到其随机输出。通过对多个模型系列、模型大小、提示风格和分布进行严格的实证分析,我们展示了这种失败的程度。至关重要的是,我们表明,虽然强大的前沿模型可以将提供的随机种子转换为目标分布,但它们直接从特定分布中进行采样的能力存在根本缺陷。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在作为智能体时,无法可靠地进行随机采样的问题。现有的LLM虽然在生成文本方面表现出色,但在需要模拟随机过程或从特定概率分布中采样时,其内部概率估计与实际输出之间存在偏差,导致采样结果不准确,影响了其作为智能体的可靠性。

核心思路:论文的核心思路是,通过实证分析揭示LLM在随机采样方面的缺陷,并指出LLM无法将其内部概率估计准确地映射到随机输出。论文强调,虽然LLM可以利用随机种子生成看似符合目标分布的样本,但其直接从特定分布中进行采样的能力存在根本性问题。

技术框架:论文采用实证分析的方法,对多个模型系列、模型大小、提示风格和分布进行测试。具体而言,研究人员设计了一系列实验,要求LLM从预定义的概率分布中进行采样,并分析LLM的输出结果与目标分布之间的差异。通过比较不同模型在不同条件下的采样表现,研究人员评估了LLM随机采样的可靠性。

关键创新:论文的关键创新在于揭示了LLM在随机采样方面存在的“随机性错觉”(Illusion of Stochasticity)。虽然LLM可以生成看似随机的输出,但其内部机制并不保证采样的准确性和可靠性。这一发现对LLM作为智能体的应用具有重要意义,因为它表明LLM在需要模拟随机过程或进行概率推理的任务中可能存在潜在的风险。

关键设计:论文的关键设计包括:1) 选择具有代表性的LLM模型系列和不同大小的模型;2) 设计多种提示风格,以评估提示对采样结果的影响;3) 选择不同的概率分布,以测试LLM在不同分布下的采样能力;4) 采用合适的评估指标,量化LLM输出结果与目标分布之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是强大的前沿LLM,在直接从特定分布中进行采样时也存在显著偏差。虽然LLM可以利用随机种子生成符合目标分布的样本,但其采样过程并非真正随机,而是受到模型内部机制的限制。这一发现挑战了LLM在智能体应用中的可靠性。

🎯 应用场景

该研究成果对LLM在智能体领域的应用具有重要指导意义,例如在强化学习、蒙特卡洛模拟、生成对抗网络等需要精确采样的场景中,需要谨慎评估LLM的随机采样能力。未来的研究可以探索如何改进LLM的采样机制,使其能够更准确地模拟随机过程,从而提高其作为智能体的可靠性。

📄 摘要(原文)

In this work, we demonstrate that reliable stochastic sampling is a fundamental yet unfulfilled requirement for Large Language Models (LLMs) operating as agents. Agentic systems are frequently required to sample from distributions, often inferred from observed data, a process which needs to be emulated by the LLM. This leads to a distinct failure point: while standard RL agents rely on external sampling mechanisms, LLMs fail to map their internal probability estimates to their stochastic outputs. Through rigorous empirical analysis across multiple model families, model sizes, prompting styles, and distributions, we demonstrate the extent of this failure. Crucially, we show that while powerful frontier models can convert provided random seeds to target distributions, their ability to sample directly from specific distributions is fundamentally flawed.