Deterministic or probabilistic? The psychology of LLMs as random number generators

📄 arXiv: 2502.19965v1 📥 PDF

作者: Javier Coronado-Blázquez

分类: cs.CL, cs.AI

发布日期: 2025-02-27

备注: 31 pages, 12 figures


💡 一句话要点

揭示LLM生成随机数时的确定性偏差,源于训练数据中的人类认知偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 随机数生成 确定性偏差 认知偏见 实验分析

📋 核心要点

  1. 大型语言模型在文本生成中表现出色,但其生成随机数的能力受到质疑,因为其本质是概率模型。
  2. 该研究通过实验分析不同LLM在生成随机数时的确定性行为,探究模型架构、提示等因素的影响。
  3. 实验发现LLM在生成随机数时存在确定性偏差,这源于训练数据中的人类认知偏见,影响了随机性。

📝 摘要(中文)

大型语言模型(LLM)通过其固有的概率性上下文感知机制,改变了文本生成的方式,模仿了人类的自然语言。本文系统地研究了各种LLM在生成随机数时的性能,考虑了不同的模型架构、数值范围、温度和提示语言等多种配置。结果表明,尽管这些模型基于随机Transformer架构,但在被提示生成随机数值输出时,常常表现出确定性的响应。特别地,我们发现改变模型以及提示语言时存在显著差异,并将这种现象归因于训练数据中嵌入的偏差。DeepSeek-R1等模型可以揭示LLM内部的推理过程,尽管结果相似。这些偏差导致了可预测的模式,破坏了真正的随机性,因为LLM只不过是在重现我们自己的人类认知偏差。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在生成随机数时是否真正具有随机性。现有方法,即直接使用LLM生成随机数,存在潜在的偏差,因为LLM本质上是基于训练数据学习的概率模型,可能受到数据中固有模式的影响,从而无法产生真正的随机数。

核心思路:论文的核心思路是通过系统性的实验,探究不同LLM在不同配置下生成随机数时的行为,分析其输出的随机性程度。通过改变模型架构、数值范围、温度参数和提示语言等因素,观察LLM的输出模式,从而揭示其内部的偏差和确定性行为。

技术框架:该研究采用实验分析的方法。首先,选择多个具有代表性的LLM模型,例如DeepSeek-R1。然后,设计不同的实验配置,包括不同的数值范围(例如,0-10, 0-100),不同的温度参数(控制生成文本的随机性),以及不同的提示语言(例如,英语、西班牙语)。最后,分析LLM生成的随机数序列的统计特性,例如均匀性、独立性等,以评估其随机性程度。

关键创新:该研究的关键创新在于系统性地揭示了LLM在生成随机数时存在的确定性偏差,并将这种偏差归因于训练数据中嵌入的人类认知偏见。这挑战了人们对LLM随机性的固有认知,并提出了对LLM应用的新思考。

关键设计:实验中,温度参数是关键的设计。较高的温度值会增加生成文本的随机性,而较低的温度值会使生成更加确定。通过调整温度参数,可以观察LLM在不同随机性程度下的行为。此外,提示语言的设计也很重要,不同的语言可能导致LLM产生不同的输出模式,从而揭示其对不同语言的偏好。

📊 实验亮点

实验结果表明,尽管LLM基于随机Transformer架构,但在生成随机数时常常表现出确定性的响应。改变模型和提示语言会导致显著差异,这归因于训练数据中嵌入的偏差。DeepSeek-R1等模型揭示了LLM内部的推理过程,但结果仍然存在偏差。这些偏差导致可预测的模式,破坏了真正的随机性。

🎯 应用场景

该研究结果对LLM在安全领域的应用具有重要意义,例如密码学、数据加密等。如果LLM生成的随机数存在偏差,可能会导致安全漏洞。此外,该研究也提醒人们在使用LLM进行数据生成时,需要注意其潜在的偏差,并采取相应的措施进行校正。未来,可以利用该研究成果开发更可靠的随机数生成方法。

📄 摘要(原文)

Large Language Models (LLMs) have transformed text generation through inherently probabilistic context-aware mechanisms, mimicking human natural language. In this paper, we systematically investigate the performance of various LLMs when generating random numbers, considering diverse configurations such as different model architectures, numerical ranges, temperature, and prompt languages. Our results reveal that, despite their stochastic transformers-based architecture, these models often exhibit deterministic responses when prompted for random numerical outputs. In particular, we find significant differences when changing the model, as well as the prompt language, attributing this phenomenon to biases deeply embedded within the training data. Models such as DeepSeek-R1 can shed some light on the internal reasoning process of LLMs, despite arriving to similar results. These biases induce predictable patterns that undermine genuine randomness, as LLMs are nothing but reproducing our own human cognitive biases.