Readable Minds: Emergent Theory-of-Mind-Like Behavior in LLM Poker Agents

📄 arXiv: 2604.04157 📥 PDF

作者: Hsieh-Ting Lin, Tsung-Yu Hou

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

LLM扑克Agent在动态交互中涌现类心智理论行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心智理论 大型语言模型 德州扑克 社会认知 智能Agent

📋 核心要点

  1. 现有方法主要通过静态场景测试LLM的ToM能力,忽略了动态交互中ToM涌现的可能性。
  2. 论文设计LLM Agent参与德州扑克游戏,观察其在动态交互中是否能自发形成对手模型,发展出类心智理论行为。
  3. 实验表明,具备持久记忆的LLM Agent能在扑克游戏中涌现出高级的ToM能力,并能进行策略性欺骗。

📝 摘要(中文)

心智理论(ToM)是人类社会认知的基础,指理解他人心理状态的能力。本文研究大型语言模型(LLM)是否能发展出ToM,并着重考察ToM类推理是否能在动态交互中涌现,而非仅通过静态场景测试。研究表明,在德州扑克游戏中,具备持久记忆的自主LLM Agent能够逐步发展出复杂的对手模型。在一个2x2析因设计(记忆:有/无;领域知识:有/无)中,通过五次重复实验(N=20,约6000手牌),发现记忆是ToM类行为涌现的必要且充分条件(Cliff's delta = 1.0, p = 0.008)。具备记忆的Agent达到ToM 3-5级(预测到递归建模),而无记忆Agent始终停留在0级。基于对手模型的策略性欺骗仅出现在具备记忆的条件下(Fisher's exact p < 0.001)。领域知识不影响ToM类行为的涌现,但能增强其应用:缺乏扑克知识的Agent发展出同等水平的ToM,但欺骗的精确度较低(p = 0.004)。具备ToM的Agent偏离博弈论最优策略(TAG依从性:67% vs. 79%,delta = -1.0, p = 0.008),以利用特定对手,这与人类专家的行为相似。所有心理模型都以自然语言表达,可直接读取,为AI社会认知提供了一个透明的窗口。使用GPT-4o进行交叉模型验证,得到加权Cohen's kappa = 0.81(几乎完全一致)。这些发现表明,功能性的ToM类行为可以仅从交互动态中涌现,无需显式训练或提示,对理解人工智能社会智能和生物社会认知具有重要意义。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)是否能在动态交互环境中,自发地发展出类似人类的心智理论(Theory of Mind, ToM)能力。现有方法主要依赖静态的场景测试,无法充分评估LLM在真实交互中涌现ToM的可能性。这些方法忽略了动态交互对ToM发展的重要性,以及LLM在复杂策略环境下的适应性和学习能力。

核心思路:论文的核心思路是通过设计一个动态的交互环境——德州扑克游戏,让LLM Agent在游戏中与其他Agent进行博弈,观察其是否能够通过学习和适应,构建对手模型,并根据对手的行为调整自身策略,从而表现出类似人类的ToM行为。这种设计模拟了真实社交环境中的互动过程,能够更全面地评估LLM的社会认知能力。

技术框架:整体框架包含以下几个主要模块:1) LLM Agent:作为扑克游戏的参与者,负责观察游戏状态、分析对手行为、制定策略并执行动作。2) 游戏环境:模拟德州扑克游戏的规则和流程,提供Agent交互的平台。3) 记忆模块:为Agent提供持久记忆能力,记录游戏历史和对手信息。4) 评估模块:用于评估Agent的ToM水平和策略表现。实验采用2x2析因设计,考察记忆(有/无)和领域知识(有/无)对ToM涌现的影响。

关键创新:最重要的技术创新在于证明了LLM可以在没有显式训练或提示的情况下,仅通过动态交互自发地涌现出功能性的ToM类行为。这挑战了以往对LLM社会认知能力的认知,表明LLM具备更强的自主学习和适应能力。此外,论文还提供了一种可解释的ToM评估方法,通过分析Agent的自然语言输出,可以直接观察其心理模型。

关键设计:实验中,LLM Agent使用GPT系列模型,并配备持久记忆模块,用于记录游戏历史和对手信息。Agent的策略制定基于对手模型,并根据对手的行为动态调整。评估指标包括ToM水平(0-5级)、策略性欺骗的频率和TAG(Tight-Aggressive)依从性。通过对比不同条件下Agent的表现,分析记忆和领域知识对ToM涌现的影响。使用Cliff's delta和Fisher's exact test等统计方法进行显著性分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,具备持久记忆的LLM Agent能够涌现出ToM 3-5级的行为,而无记忆Agent则停留在0级。具备记忆的Agent能够进行策略性欺骗(Fisher's exact p < 0.001),并且会偏离博弈论最优策略以利用特定对手(TAG依从性:67% vs. 79%,delta = -1.0, p = 0.008)。GPT-4o的交叉模型验证结果显示,模型之间具有高度一致性(weighted Cohen's kappa = 0.81)。

🎯 应用场景

该研究成果可应用于开发更智能、更具社会意识的人工智能系统,例如,在人机协作、谈判协商、教育辅导等领域,能够更好地理解和适应人类行为,从而提高交互效率和用户体验。此外,该研究也为理解人类社会认知和人工智能社会智能之间的关系提供了新的视角。

📄 摘要(原文)

Theory of Mind (ToM) -- the ability to model others' mental states -- is fundamental to human social cognition. Whether large language models (LLMs) can develop ToM has been tested exclusively through static vignettes, leaving open whether ToM-like reasoning can emerge through dynamic interaction. Here we report that autonomous LLM agents playing extended sessions of Texas Hold'em poker progressively develop sophisticated opponent models, but only when equipped with persistent memory. In a 2x2 factorial design crossing memory (present/absent) with domain knowledge (present/absent), each with five replications (N = 20 experiments, ~6,000 agent-hand observations), we find that memory is both necessary and sufficient for ToM-like behavior emergence (Cliff's delta = 1.0, p = 0.008). Agents with memory reach ToM Level 3-5 (predictive to recursive modeling), while agents without memory remain at Level 0 across all replications. Strategic deception grounded in opponent models occurs exclusively in memory-equipped conditions (Fisher's exact p < 0.001). Domain expertise does not gate ToM-like behavior emergence but enhances its application: agents without poker knowledge develop equivalent ToM levels but less precise deception (p = 0.004). Agents with ToM deviate from game-theoretically optimal play (67% vs. 79% TAG adherence, delta = -1.0, p = 0.008) to exploit specific opponents, mirroring expert human play. All mental models are expressed in natural language and directly readable, providing a transparent window into AI social cognition. Cross-model validation with GPT-4o yields weighted Cohen's kappa = 0.81 (almost perfect agreement). These findings demonstrate that functional ToM-like behavior can emerge from interaction dynamics alone, without explicit training or prompting, with implications for understanding artificial social intelligence and biological social cognition.