Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions
作者: Jan Sobotka, Mustafa O. Karabag, Ufuk Topcu
分类: cs.CL, cs.AI, cs.GT
发布日期: 2026-04-30
💡 一句话要点
揭示LLM战略博弈困境:观察、信念与行动间的断裂
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 战略博弈 不完全信息 信念推理 决策过程
📋 核心要点
- 现有LLM在不完全信息博弈中进行战略决策时,存在难以理解的失败案例,缺乏对其内部决策机制的深入分析。
- 该研究旨在通过分析LLM的内部信念和行动,揭示其在观察、信念和行动之间存在的断裂,从而理解其战略决策的局限性。
- 实验表明,LLM的内部信念比口头报告更准确但更脆弱,且信念到行动的转换弱于prompt中的信念,导致博弈收益不稳定。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于不完全信息下的战略决策,例如谈判和政策制定。虽然LLM在许多此类任务中表现出色,但它们的失败之处却鲜为人知。本文通过对开放权重模型Llama 3.1、Qwen3和gpt-oss的实验,揭示了LLM在不完全信息博弈中决策的内部机制中存在的两个根本性差距。首先是观察-信念差距:LLM编码的关于潜在博弈状态的内部信念比它们自己的口头报告更准确,但这些信念是脆弱的。特别是,信念准确性随着多跳推理而降低,表现出首因效应和近因效应,并且在长时间的交互中偏离贝叶斯一致性。其次是信念-行动差距:内部信念到行动的隐式转换弱于prompt中外部化的信念,但两种信念条件化都不能始终如一地实现更高的博弈收益。这些结果表明,分析LLM的内部过程可以揭示系统性的脆弱性,在没有强大保障措施的情况下将LLM部署到战略领域之前,应谨慎对待。
🔬 方法详解
问题定义:论文旨在解决LLM在不完全信息博弈中表现出的战略决策能力不足的问题。现有方法缺乏对LLM内部决策过程的深入理解,无法解释其在复杂战略场景下的失败案例。痛点在于LLM的决策过程如同黑盒,难以诊断和改进。
核心思路:论文的核心思路是通过分析LLM的内部信念状态和行动选择,揭示其在观察、信念和行动之间存在的断裂。具体而言,研究关注LLM如何从观察中形成信念,以及如何将信念转化为行动,并评估这些过程的准确性和一致性。通过揭示这些断裂,可以更好地理解LLM战略决策的局限性,并为改进其性能提供指导。
技术框架:该研究的技术框架主要包括以下几个阶段: 1. 博弈环境设计:设计具有不完全信息的博弈环境,例如谈判或政策制定场景,用于评估LLM的战略决策能力。 2. LLM内部状态分析:通过prompt工程和探针技术,提取LLM的内部信念状态,例如对其他参与者意图的估计。 3. 信念准确性评估:评估LLM内部信念的准确性,例如通过与真实博弈状态进行比较。 4. 信念一致性评估:评估LLM内部信念在多轮交互中的一致性,例如是否符合贝叶斯更新规则。 5. 信念-行动关联分析:分析LLM的行动选择与内部信念之间的关系,评估信念对行动的影响。
关键创新:该研究的关键创新在于: 1. 揭示了LLM在战略博弈中存在的观察-信念和信念-行动两个根本性差距。这为理解LLM的战略决策局限性提供了新的视角。 2. 提出了分析LLM内部信念状态的方法,通过探针技术提取LLM的内部信念,并评估其准确性和一致性。 3. 强调了LLM内部过程分析的重要性,认为在将LLM部署到战略领域之前,需要对其内部过程进行深入分析,以避免潜在的风险。
关键设计:论文的关键设计包括: 1. 博弈环境的设计:选择具有代表性的不完全信息博弈,例如谈判或政策制定场景,并设计合适的prompt,引导LLM参与博弈。 2. 内部信念提取方法:使用探针技术,例如通过分析LLM的隐藏层激活值,提取其内部信念状态。 3. 评估指标的选择:选择合适的评估指标,例如信念准确率、信念一致性、博弈收益等,用于评估LLM的战略决策能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的内部信念比口头报告更准确,但随着多跳推理,信念准确性降低,且存在首因效应和近因效应。此外,内部信念到行动的转换弱于prompt中的信念,且两种信念条件化都不能稳定提升博弈收益。这些结果揭示了LLM在战略博弈中存在的系统性脆弱性。
🎯 应用场景
该研究成果可应用于评估和改进LLM在战略决策领域的应用,例如谈判、政策制定和资源分配。通过理解LLM的决策缺陷,可以设计更有效的prompt工程和保障措施,提高LLM在复杂战略场景下的可靠性和安全性,并为开发更智能的博弈AI提供理论基础。
📄 摘要(原文)
Large language models (LLMs) are increasingly tasked with strategic decision-making under incomplete information, such as in negotiation and policymaking. While LLMs can excel at many such tasks, they also fail in ways that are poorly understood. We shed light on these failures by uncovering two fundamental gaps in the internal mechanisms underlying the decision-making of LLMs in incomplete-information games, supported by experiments with open-weight models Llama 3.1, Qwen3, and gpt-oss. First, an observation-belief gap: LLMs encode internal beliefs about latent game states that are substantially more accurate than their own verbal reports, yet these beliefs are brittle. In particular, the belief accuracy degrades with multi-hop reasoning, exhibits primacy and recency biases, and drifts away from Bayesian coherence over extended interactions. Second, a belief-action gap: The implicit conversion of internal beliefs into actions is weaker than that of the beliefs externalized in the prompt, yet neither belief-conditioning consistently achieves higher game payoffs. These results show how analyzing LLMs' internal processes can expose systematic vulnerabilities that warrant caution before deploying LLMs in strategic domains without robust guardrails.