Evaluating the Quality of Randomness and Entropy in Tasks Supported by Large Language Models

📄 arXiv: 2510.12080v1 📥 PDF

作者: Rabimba Karanjai, Yang Lu, Ranjith Chodavarapu, Lei Xu, Weidong Shi

分类: cs.AI

发布日期: 2025-10-14


💡 一句话要点

评估大语言模型在随机性任务中的随机质量与熵值

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 随机性评估 NIST测试 随机数生成 密码学 实验分析

📋 核心要点

  1. 现有大语言模型在随机数生成和利用方面能力不足,无法满足随机决策等应用需求。
  2. 该研究通过设计实验,评估LLM在不同因素影响下处理随机性任务的能力。
  3. 实验结果表明,LLM生成的输出具有一定随机性,但性能不稳定,与预期行为存在偏差。

📝 摘要(中文)

大型语言模型(LLM)技术的快速发展催生了各种应用,其中许多应用本质上需要随机性,例如随机决策、游戏、调度、AI 代理和密码学相关任务。然而,LLM 在处理随机性方面的能力,特别是在有效生成和利用随机数方面的能力,仍不清楚。本文通过一系列实验研究了 LLM 处理涉及随机性任务的能力。我们设计了一组实验,考虑了可能影响 LLM 在涉及随机性任务中性能的各种因素,例如访问外部工具、任务类型、模型状态(全新与非全新)和提示策略。实验涵盖了一系列任务,包括生成随机数、生成随机字符串(如密码)、打乱项目以及使用熵和 NIST 随机性测试套件评估随机性的质量。我们的研究结果表明,虽然 LLM 可以生成表现出一定程度随机性的输出,但它们的性能不一致,并且经常与预期行为显着偏差。对实验结果的分析突出了 LLM 有效处理涉及随机性任务所需的关键限制和需要改进的领域。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在处理涉及随机性的任务时的能力。现有方法缺乏对 LLM 生成和利用随机数有效性的系统性评估,导致在需要随机性的应用中,LLM 的可靠性未知。例如,在密码生成、随机调度等场景中,LLM 产生的随机性质量直接影响系统的安全性与公平性。

核心思路:论文的核心思路是通过设计一系列实验,系统性地评估 LLM 在不同条件下的随机性处理能力。这些实验涵盖了多种任务类型、模型状态(fresh vs. non-fresh)、提示策略以及是否允许访问外部工具等因素,从而全面了解 LLM 在随机性方面的优势与不足。

技术框架:论文采用实验评估的方法。首先,定义了一系列涉及随机性的任务,包括生成随机数、生成随机字符串(如密码)、打乱项目等。然后,针对每个任务,设计不同的实验条件,例如不同的提示语、是否允许访问外部工具等。最后,使用熵和 NIST 随机性测试套件等工具,对 LLM 生成的输出进行随机性质量评估,并分析实验结果。

关键创新:论文的关键创新在于其系统性地评估了 LLM 在处理随机性任务方面的能力。以往的研究主要关注 LLM 在自然语言处理等领域的表现,而忽略了其在随机性方面的潜在问题。该论文通过设计全面的实验,揭示了 LLM 在随机数生成和利用方面的局限性,为后续研究提供了重要的参考。

关键设计:实验设计中考虑了多种因素,包括:1) 任务类型:涵盖了生成随机数、生成随机字符串、打乱项目等多种任务;2) 模型状态:区分了 fresh(全新)和 non-fresh(非全新)两种模型状态,以评估模型历史对随机性的影响;3) 提示策略:使用了不同的提示语,以评估提示语对随机性生成的影响;4) 外部工具:评估了允许 LLM 访问外部工具(如随机数生成器)对随机性的影响。此外,使用熵和 NIST 随机性测试套件等工具对生成的输出进行随机性质量评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM 在生成随机数和随机字符串等任务中表现出一定的随机性,但其性能并不稳定,且容易受到提示语、模型状态等因素的影响。在某些情况下,LLM 生成的随机数序列未能通过 NIST 随机性测试,表明其随机性质量存在问题。该研究揭示了 LLM 在处理随机性任务方面的局限性,为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于评估和改进大语言模型在需要随机性的应用中的性能,例如密码生成、游戏设计、AI 代理、随机调度等。通过了解 LLM 在随机性方面的局限性,可以设计更可靠和安全的系统,并为未来的 LLM 研究提供指导。

📄 摘要(原文)

The rapid advancement of large language model (LLM) technology has led to diverse applications, many of which inherently require randomness, such as stochastic decision-making, gaming, scheduling, AI agents, and cryptography-related tasks. However, the capabilities of LLMs in handling randomness, particularly in generating and utilizing random numbers effectively, remain unclear. This paper investigates the capacity of LLMs for handling tasks that involve randomness through a series of experiments. We designed a set of experiments that consider various factors that can influence an LLM's performance in tasks involving randomness, such as accessibility to external tools, types of tasks, model states (fresh vs. non-fresh), and prompting strategies. The experiments cover a range of tasks, including generating random numbers, generating random strings such as passwords, shuffling items, and evaluating the quality of randomness using entropy and the NIST randomness test-suite. Our findings reveal that while LLMs can generate outputs that exhibit some degree of randomness, their performance is inconsistent and often deviates significantly from the expected behavior. The analysis of the experimental results highlights key limitations and areas where improvement is needed for the LLMs to effectively handle tasks involving randomness