Do LLMs Know When to Flip a Coin? Strategic Randomization through Reasoning and Experience

📄 arXiv: 2506.18928v1 📥 PDF

作者: Lingyu Yang

分类: cs.AI

发布日期: 2025-06-21

🔗 代码/项目: GITHUB


💡 一句话要点

提出战略随机化以提升大语言模型的决策能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 战略随机化 博弈论 决策能力 最大熵策略 抽象推理 自适应学习

📋 核心要点

  1. 现有方法常将随机化决策与随机生成混淆,导致对大语言模型的评估不全面。
  2. 本文提出一种新颖的零和博弈模型,利用最大熵策略来探讨随机化决策的认知过程。
  3. 实验结果显示,强模型在明确提示下随机化能力增强,而在面对同级模型时趋向均衡策略。

📝 摘要(中文)

战略随机化是博弈论中的关键原则,但在大语言模型(LLMs)中仍未得到充分探索。现有研究常将随机化的认知决策与随机性的机械生成混淆,导致评估不完整。为此,本文提出了一种受田忌赛马启发的零和博弈,其中纳什均衡对应于最大熵策略。通过对五种LLMs在不同提示风格下的竞争性多轮比赛进行评估,结果表明,较弱的模型无论提示如何都保持确定性,而较强的模型在明确提示下表现出更高的随机化能力。强模型在面对较弱模型时采用确定性策略以利用偏差,但在面对同级模型时趋向均衡策略。通过胜负结果和贝叶斯因子分析,展示了LLMs在战略推理能力上的显著差异,强调了在抽象推理和自适应学习方面的改进机会。

🔬 方法详解

问题定义:本文旨在解决大语言模型在随机化决策中的不足,现有方法未能有效评估模型的认知随机化能力。

核心思路:通过构建受田忌赛马启发的零和博弈,论文探讨了如何在博弈中实现最大熵策略,以此来评估模型的随机化决策能力。

技术框架:整体架构包括博弈模型的设计、不同提示风格的实验设置,以及对模型决策过程的分析。主要模块包括模型训练、博弈执行和结果评估。

关键创新:最重要的创新在于将博弈论中的最大熵策略引入到大语言模型的随机化决策中,揭示了模型在不同对手下的策略调整能力。

关键设计:在实验中,设置了多种提示风格(框架式、中立式、提示式),并通过系统提供的随机选择来隔离随机化决策的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,较弱的模型在不同提示下保持确定性,而较强的模型在明确提示下随机化能力显著提升。具体而言,强模型在面对较弱模型时采用确定性策略,而在与同级模型对抗时趋向于均衡策略,展示了战略推理能力的显著差异。

🎯 应用场景

该研究的潜在应用领域包括游戏AI、决策支持系统和自适应学习系统。通过提升大语言模型的随机化决策能力,可以在复杂环境中更好地模拟人类决策过程,增强模型的灵活性和适应性,未来可能对智能代理和自动化系统产生深远影响。

📄 摘要(原文)

Strategic randomization is a key principle in game theory, yet it remains underexplored in large language models (LLMs). Prior work often conflates the cognitive decision to randomize with the mechanical generation of randomness, leading to incomplete evaluations. To address this, we propose a novel zero-sum game inspired by the Tian Ji Horse Race, where the Nash equilibrium corresponds to a maximal entropy strategy. The game's complexity masks this property from untrained humans and underdeveloped LLMs. We evaluate five LLMs across prompt styles -- framed, neutral, and hinted -- using competitive multi-tournament gameplay with system-provided random choices, isolating the decision to randomize. Results show that weaker models remain deterministic regardless of prompts, while stronger models exhibit increased randomization under explicit hints. When facing weaker models, strong LLMs adopt deterministic strategies to exploit biases, but converge toward equilibrium play when facing peers. Through win/loss outcomes and Bayes factor analysis, we demonstrate meaningful variation in LLMs' strategic reasoning capabilities, highlighting opportunities for improvement in abstract reasoning and adaptive learning. We make our implementation publicly available at https://github.com/ocelopus/llm-when-to-throw-coin to ensure full reproducibility.