Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information

作者: Yauwai Yim, Chunkit Chan, Tianyu Shi, Zheye Deng, Wei Fan, Tianshi Zheng, Yangqiu Song

分类: cs.CL, cs.AI

发布日期: 2024-08-05

💡 一句话要点

提出基于心智理论的LLM智能体，提升在非完美信息合作游戏掼蛋中的表现

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心智理论 多智能体协作 非完美信息博弈 掼蛋 智能体规划 策略优化

📋 核心要点

现有LLM在复杂、非完美信息环境下的多智能体协作能力不足，尤其是在非英语环境中。
提出基于心智理论（ToM）的规划技术，使LLM智能体能够根据游戏规则、状态和历史调整策略。
实验结果表明，LLM在掼蛋游戏中展现出ToM能力，并能有效提升对抗其他智能体的性能。

📝 摘要（中文）

大型语言模型（LLMs）在处理非完美信息下的简单游戏和实现多智能体协作方面已取得成功，但它们在复杂、非完美信息环境（尤其是在非英语环境）中促进与其他智能体进行实际协作的能力仍有待探索。本研究调查了开源和基于API的LLM所获得的知识在需要智能体协作的复杂文本游戏中的适用性，并将其性能与使用其他类型智能体的已建立基线进行比较。我们提出了一种心智理论（ToM）规划技术，该技术允许LLM智能体仅使用游戏规则、当前状态和历史上下文作为输入来调整其对抗各种对手的策略。我们整合了一个外部工具来缓解纸牌游戏中动态和广泛的动作空间带来的挑战。结果表明，尽管当前LLM与最先进的强化学习（RL）模型之间存在性能差距，但LLM在此游戏环境中表现出ToM能力。它持续提高LLM智能体对抗对手的表现，表明它们能够理解盟友和对手的行为，并与盟友建立协作。为了鼓励进一步的研究和理解，我们已公开了我们的代码库。

🔬 方法详解

问题定义：论文旨在解决LLM在复杂非完美信息博弈环境下的多智能体协作问题，特别是在中文环境下的“掼蛋”游戏中。现有方法，如直接应用LLM或强化学习，难以有效建模对手意图和进行策略调整，导致协作效果不佳。

核心思路：论文的核心思路是赋予LLM智能体“心智理论”（Theory of Mind, ToM）能力，使其能够理解和预测对手及盟友的行为，从而制定更有效的协作策略。通过ToM规划，LLM可以根据游戏规则、当前状态和历史信息推断其他玩家的意图，并相应地调整自己的行动。

技术框架：整体框架包含以下几个主要模块：1) 游戏环境接口：负责与掼蛋游戏环境进行交互，获取游戏状态和执行动作。2) LLM智能体：作为核心决策模块，接收游戏状态信息，并利用ToM规划生成行动策略。3) 心智建模模块：基于历史游戏数据和当前状态，构建对手和盟友的心智模型，预测其可能的行动。4) 动作空间管理模块：利用外部工具来管理掼蛋游戏中庞大且动态的动作空间，降低LLM的决策难度。

关键创新：论文的关键创新在于将心智理论引入LLM智能体，使其具备理解和预测其他玩家行为的能力。与传统的基于规则或强化学习的智能体相比，ToM-LLM能够更好地适应复杂博弈环境，并实现更有效的协作。此外，论文还针对掼蛋游戏的特点，设计了相应的动作空间管理模块，提高了LLM的决策效率。

关键设计：在ToM规划中，论文可能采用了以下关键设计：1) 基于LLM的意图推断模型，利用LLM强大的语言理解能力，从历史游戏数据中学习玩家的意图模式。2) 基于规则和LLM的心智模型构建方法，结合游戏规则和LLM的预测结果，构建更准确的对手和盟友的心智模型。3) 基于蒙特卡洛树搜索（MCTS）的策略优化方法，利用MCTS在心智模型的基础上搜索最优的行动策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于心智理论的LLM智能体在掼蛋游戏中表现出显著的性能提升。虽然与最先进的强化学习模型相比仍存在差距，但ToM规划能够持续提高LLM智能体对抗对手的表现，证明了LLM在理解盟友和对手行为以及建立协作方面的潜力。代码库已开源，方便进一步研究。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的复杂博弈场景，如自动驾驶、金融交易、军事对抗等。通过赋予智能体心智理论能力，可以提升其在复杂环境下的决策能力和协作效率，实现更智能、更可靠的智能系统。此外，该研究对于提升LLM在非英语环境下的应用能力具有重要意义。

📄 摘要（原文）

Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible.

Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理