How reliable are LLMs when it comes to playing dice?

作者: Luca Avena, Gianmarco Bet, Bernardo Busoni

分类: cs.CL, cs.AI, cs.HC, math.PR

发布日期: 2026-06-05

💡 一句话要点

评估大型语言模型在概率推理中的可靠性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 概率推理 启发式推理 数据集构建 模型评估

📋 核心要点

核心问题：现有大型语言模型在处理反直觉概率问题时表现不佳，准确率显著低于标准问题。
方法要点：通过构建标准和反直觉问题的数据集，评估模型在不同提示下的表现，揭示模型的推理局限性。
实验或效果：模型在标准问题上平均准确率为0.96，而在反直觉问题上仅为0.59，显示出显著的性能差异。

📝 摘要（中文）

本研究通过对离散概率问题的控制基准测试，探讨了大型语言模型的概率推理能力。我们构建了两个数据集，分别为标准练习集和反直觉练习集，以触发启发式推理，并评估了8个最先进的模型，分别在有无链式思维提示下进行测试。模型在标准问题上的平均准确率为0.96，但在反直觉问题上仅为0.59。此外，我们提供了关于标记偏差的实证证据：当经典表述被替换为伪装变体时，性能下降超过20%。在提示中嵌入误导性建议会使性能降低多达34%，没有模型对此表现出免疫。综合来看，尽管当前大型语言模型在高级数学问题上取得了成功，但它们尚未成为真正的概率推理者。

🔬 方法详解

问题定义：本研究旨在评估大型语言模型在概率推理任务中的可靠性，尤其是在面对反直觉问题时的表现。现有方法在处理复杂概率问题时的局限性，尤其是对启发式推理的依赖，导致模型的准确性不足。

核心思路：通过设计标准与反直觉问题的数据集，结合链式思维提示，探讨模型在不同情境下的推理能力，旨在揭示模型的潜在偏差和局限。

技术框架：研究采用了两种数据集，分别为标准问题和反直觉问题，评估了8个先进模型在有无链式思维提示下的表现，分析了模型的准确率和偏差。

关键创新：本研究的创新在于通过对比标准与反直觉问题，揭示了大型语言模型在概率推理中的不足，尤其是对提示内容的敏感性，这在以往研究中未被充分探讨。

关键设计：在实验中，模型的提示设计至关重要，尤其是对经典表述和伪装变体的处理，影响了模型的推理能力和准确性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，模型在标准问题上的平均准确率为0.96，而在反直觉问题上仅为0.59，性能差异显著。此外，模型在面对伪装变体时性能下降超过20%，而嵌入误导性建议则导致性能降低多达34%。

🎯 应用场景

该研究的潜在应用领域包括教育、游戏设计和决策支持系统等。通过深入理解大型语言模型在概率推理中的局限性，可以为未来的模型改进提供指导，提升其在复杂推理任务中的表现，进而推动人工智能在更广泛领域的应用。

📄 摘要（原文）

We investigate the probabilistic reasoning capabilities of large language models through a controlled benchmarking study on discrete probability problems. We constructed two datasets, respectively a set of standard exercises and a set of counterintuitive exercises, designed to trigger heuristic reasoning, and evaluated 8 state-of-the-art models, each tested with and without Chain-of-Thought prompting. Models achieve an average accuracy of 0.96 on standard problems but only 0.59 on counterintuitive ones. We further provide empirical evidence of token bias: performance drops by over 20% when canonical formulations are replaced by disguised variants. Embedding misleading suggestions in the prompt reduces performance by up to 34%, with no model proving immune. Taken together, the reported findings suggest that current LLMs are not yet genuine probabilistic reasoners, despite their success in advanced mathematical problems.

How reliable are LLMs when it comes to playing dice?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理