Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games
作者: Nathan Herr, Fernando Acero, Roberta Raileanu, María Pérez-Ortiz, Zhibin Li
分类: cs.AI, cs.CL, cs.GT
发布日期: 2024-07-05 (更新: 2024-10-15)
💡 一句话要点
研究表明大型语言模型在非零和博弈中存在策略决策偏差,影响其性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 策略决策 博弈论 偏差分析 猎鹿博弈 囚徒困境 链式思考 人工智能
📋 核心要点
- 现有大型语言模型在策略决策能力方面存在不足,尤其是在复杂社会互动场景中,需要深入评估其在博弈论框架下的表现。
- 该研究通过在猎鹿博弈和囚徒困境等经典博弈中评估LLM的决策,揭示了模型中存在的系统性偏差,如位置偏差、收益偏差和行为偏差。
- 实验结果表明,当博弈配置与偏差不一致时,LLM的性能显著下降,即使是表现优异的GPT-4o也未能幸免,表明模型推理能力仍有提升空间。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地应用于实际场景,但其策略决策能力仍未得到充分探索。为了充分利用LLMs的潜力,理解它们在复杂社会场景中的表现至关重要。博弈论为评估这些能力提供了一个良好的框架。本研究调查了GPT-3.5、GPT-4-Turbo、GPT-4o和Llama-3-8B在经典的二人非零和博弈(猎鹿博弈和囚徒困境)中的表现和优缺点。结构化评估表明,这些模型在博弈决策中受到至少一种系统性偏差的影响:位置偏差、收益偏差或行为偏差。这表明LLMs在进行策略决策时并未完全依赖逻辑推理。因此,当博弈配置与影响偏差不一致时,LLMs的性能会下降。在这种情况下,GPT-3.5、GPT-4-Turbo、GPT-4o和Llama-3-8B在猎鹿博弈中的平均性能分别下降32%、25%、34%和29%,在囚徒困境中分别下降28%、16%、34%和24%。令人惊讶的是,GPT-4o(在标准基准测试中表现最佳的LLM)的性能下降最为显著,表明较新的模型并未解决这些问题。有趣的是,常用的链式思考(CoT)提示方法虽然降低了GPT-3.5、GPT-4o和Llama-3-8B中的偏差,但增加了GPT-4-Turbo中偏差的影响,表明CoT本身并不能完全作为解决此问题的可靠方案。我们进行了额外的实验,进一步深入了解了这些观察到的行为。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)在策略性决策场景下的表现,特别是它们在经典二人非零和博弈(如猎鹿博弈和囚徒困境)中的决策能力。现有方法缺乏对LLM在复杂社会互动中策略性推理能力的系统性评估,并且LLM可能受到各种偏差的影响,导致其决策并非最优。
核心思路:论文的核心思路是通过博弈论框架来评估LLM的策略决策能力。通过设计特定的博弈场景,观察LLM在不同配置下的决策行为,从而识别和分析LLM中存在的系统性偏差。这种方法能够量化LLM的策略性推理能力,并揭示其潜在的局限性。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择经典的二人非零和博弈(猎鹿博弈和囚徒困境)作为评估环境;2) 使用不同的LLM(GPT-3.5、GPT-4-Turbo、GPT-4o和Llama-3-8B)参与博弈;3) 设计不同的博弈配置,以考察LLM在不同条件下的决策行为;4) 分析LLM的决策结果,识别和量化LLM中存在的系统性偏差(如位置偏差、收益偏差和行为偏差);5) 使用链式思考(CoT)提示方法,尝试缓解LLM中的偏差,并评估其效果。
关键创新:该研究的关键创新在于:1) 系统性地评估了LLM在策略性决策场景下的表现,揭示了LLM中存在的多种系统性偏差;2) 发现即使是表现优异的LLM(如GPT-4o)也未能有效解决这些偏差问题;3) 发现常用的链式思考(CoT)提示方法在缓解偏差方面效果不一致,甚至可能加剧某些模型的偏差。
关键设计:研究的关键设计包括:1) 精心设计的博弈配置,用于激发和暴露LLM中的不同偏差;2) 使用不同的LLM进行对比实验,以评估不同模型在策略决策方面的差异;3) 使用链式思考(CoT)提示方法,尝试改善LLM的推理能力,并评估其对偏差的影响;4) 通过量化指标(如性能下降幅度)来评估LLM的策略决策能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当博弈配置与偏差不一致时,GPT-3.5、GPT-4-Turbo、GPT-4o和Llama-3-8B在猎鹿博弈中的平均性能分别下降32%、25%、34%和29%,在囚徒困境中分别下降28%、16%、34%和24%。令人惊讶的是,GPT-4o的性能下降最为显著,表明即使是最新的模型也未能有效解决这些偏差问题。此外,CoT方法对不同模型的影响不同,表明其并非通用的解决方案。
🎯 应用场景
该研究成果可应用于提升LLM在实际应用中的决策能力,例如在谈判、资源分配、合作博弈等场景中。通过了解LLM的偏差,可以设计更有效的提示工程和训练方法,提高LLM在复杂社会互动中的表现,从而更好地应用于自动化决策、智能代理等领域。
📄 摘要(原文)
Large Language Models (LLMs) have been increasingly used in real-world settings, yet their strategic decision-making abilities remain largely unexplored. To fully benefit from the potential of LLMs, it's essential to understand their ability to function in complex social scenarios. Game theory, which is already used to understand real-world interactions, provides a good framework for assessing these abilities. This work investigates the performance and merits of LLMs in canonical game-theoretic two-player non-zero-sum games, Stag Hunt and Prisoner Dilemma. Our structured evaluation of GPT-3.5, GPT-4-Turbo, GPT-4o, and Llama-3-8B shows that these models, when making decisions in these games, are affected by at least one of the following systematic biases: positional bias, payoff bias, or behavioural bias. This indicates that LLMs do not fully rely on logical reasoning when making these strategic decisions. As a result, it was found that the LLMs' performance drops when the game configuration is misaligned with the affecting biases. When misaligned, GPT-3.5, GPT-4-Turbo, GPT-4o, and Llama-3-8B show an average performance drop of 32\%, 25\%, 34\%, and 29\% respectively in Stag Hunt, and 28\%, 16\%, 34\%, and 24\% respectively in Prisoner's Dilemma. Surprisingly, GPT-4o (a top-performing LLM across standard benchmarks) suffers the most substantial performance drop, suggesting that newer models are not addressing these issues. Interestingly, we found that a commonly used method of improving the reasoning capabilities of LLMs, chain-of-thought (CoT) prompting, reduces the biases in GPT-3.5, GPT-4o, and Llama-3-8B but increases the effect of the bias in GPT-4-Turbo, indicating that CoT alone cannot fully serve as a robust solution to this problem. We perform several additional experiments, which provide further insight into these observed behaviours.