How reliable are LLMs when it comes to playing dice?

📄 arXiv: 2606.07515v1 📥 PDF

作者: Luca Avena, Gianmarco Bet, Bernardo Busoni

分类: cs.CL, cs.AI, cs.HC, math.PR

发布日期: 2026-06-05


💡 一句话要点

评估大型语言模型在概率推理中的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 概率推理 启发式推理 数据集构建 模型评估

📋 核心要点

  1. 核心问题:现有大型语言模型在处理反直觉概率问题时表现不佳,准确率显著低于标准问题。
  2. 方法要点:通过构建标准和反直觉问题的数据集,评估模型在不同提示下的表现,揭示模型的推理局限性。
  3. 实验或效果:模型在标准问题上平均准确率为0.96,而在反直觉问题上仅为0.59,显示出显著的性能差异。

📝 摘要(中文)

本研究通过对离散概率问题的控制基准测试,探讨了大型语言模型的概率推理能力。我们构建了两个数据集,分别为标准练习集和反直觉练习集,以触发启发式推理,并评估了8个最先进的模型,分别在有无链式思维提示下进行测试。模型在标准问题上的平均准确率为0.96,但在反直觉问题上仅为0.59。此外,我们提供了关于标记偏差的实证证据:当经典表述被替换为伪装变体时,性能下降超过20%。在提示中嵌入误导性建议会使性能降低多达34%,没有模型对此表现出免疫。综合来看,尽管当前大型语言模型在高级数学问题上取得了成功,但它们尚未成为真正的概率推理者。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型在概率推理任务中的可靠性,尤其是在面对反直觉问题时的表现。现有方法在处理复杂概率问题时的局限性,尤其是对启发式推理的依赖,导致模型的准确性不足。

核心思路:通过设计标准与反直觉问题的数据集,结合链式思维提示,探讨模型在不同情境下的推理能力,旨在揭示模型的潜在偏差和局限。

技术框架:研究采用了两种数据集,分别为标准问题和反直觉问题,评估了8个先进模型在有无链式思维提示下的表现,分析了模型的准确率和偏差。

关键创新:本研究的创新在于通过对比标准与反直觉问题,揭示了大型语言模型在概率推理中的不足,尤其是对提示内容的敏感性,这在以往研究中未被充分探讨。

关键设计:在实验中,模型的提示设计至关重要,尤其是对经典表述和伪装变体的处理,影响了模型的推理能力和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,模型在标准问题上的平均准确率为0.96,而在反直觉问题上仅为0.59,性能差异显著。此外,模型在面对伪装变体时性能下降超过20%,而嵌入误导性建议则导致性能降低多达34%。

🎯 应用场景

该研究的潜在应用领域包括教育、游戏设计和决策支持系统等。通过深入理解大型语言模型在概率推理中的局限性,可以为未来的模型改进提供指导,提升其在复杂推理任务中的表现,进而推动人工智能在更广泛领域的应用。

📄 摘要(原文)

We investigate the probabilistic reasoning capabilities of large language models through a controlled benchmarking study on discrete probability problems. We constructed two datasets, respectively a set of standard exercises and a set of counterintuitive exercises, designed to trigger heuristic reasoning, and evaluated 8 state-of-the-art models, each tested with and without Chain-of-Thought prompting. Models achieve an average accuracy of 0.96 on standard problems but only 0.59 on counterintuitive ones. We further provide empirical evidence of token bias: performance drops by over 20% when canonical formulations are replaced by disguised variants. Embedding misleading suggestions in the prompt reduces performance by up to 34%, with no model proving immune. Taken together, the reported findings suggest that current LLMs are not yet genuine probabilistic reasoners, despite their success in advanced mathematical problems.