Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game

作者: Ruiqi Dong, Zhixuan Liao, Guangwei Lai, Yuhan Ma, Danni Ma, Chenyou Fan

分类: cs.AI, cs.CL, cs.CY

发布日期: 2024-10-20

💡 一句话要点

提出MPTT框架，引导LLM在“谁是卧底”游戏中探索多视角团队策略

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多视角团队策略 谁是卧底 人机交互 策略性决策

📋 核心要点

LLM在复杂场景的开放决策中存在挑战，缺乏类人语言逻辑和多维思维。
MPTT框架通过模拟“谁是卧底”游戏，培养LLM的自我感知、策略隐藏和沟通能力。
实验表明，MPTT能使LLM模拟真实社会决策，促进公平和多样性，并与人类行为对齐。

📝 摘要（中文）

大型语言模型(LLMs)在复杂任务中是关键的AI智能体，但在复杂场景中的开放决策问题中仍然面临挑战。为了解决这个问题，我们使用语言逻辑游戏“谁是卧底” (WIU) 作为实验平台，提出了多视角团队策略 (MPTT) 框架。MPTT旨在培养LLMs类人的语言表达逻辑、多维思维和在复杂场景中的自我感知。通过交替的发言和投票环节，整合诸如自我视角、身份确定、自我反思、自我总结和多轮寻找队友等技术，LLM智能体通过战略性的隐藏和沟通做出理性的决策，培养类人的信任。初步结果表明，MPTT结合WIU，利用LLMs的认知能力创建一个可以模拟真实社会的决策框架。该框架有助于少数群体进行沟通和表达，促进决策的公平性和多样性。此外，我们的人在环实验表明，LLMs可以通过互动学习并与人类行为保持一致，表明它们有潜力积极参与社会决策。

🔬 方法详解

问题定义：现有的大型语言模型在复杂场景下的开放式决策问题中表现不足，尤其是在需要团队合作和策略性欺骗的场景中。现有方法难以赋予LLM类人的语言表达逻辑、多维思维和自我感知能力，导致其在类似“谁是卧底”这样的游戏中难以做出最优决策。

核心思路：论文的核心思路是构建一个多视角团队策略（MPTT）框架，通过模拟“谁是卧底”游戏，让LLM在发言和投票的交替过程中，学习如何进行策略性隐藏和沟通，从而做出更合理的决策。这种设计旨在培养LLM的类人思维模式，使其能够更好地理解和适应复杂的人际互动场景。

技术框架：MPTT框架主要包含以下几个阶段：1) 自我视角：LLM首先从自身角度理解游戏规则和自身身份；2) 身份确定：LLM尝试推断其他玩家的身份；3) 自我反思：LLM反思自己的行为和决策，评估其有效性；4) 自我总结：LLM总结当前局势，形成对整体情况的理解；5) 多轮寻找队友：LLM通过多轮发言和投票，尝试找到自己的队友。这些阶段循环进行，直到游戏结束。

关键创新：该论文的关键创新在于将“谁是卧底”游戏作为LLM学习和评估的平台，并提出了MPTT框架，该框架通过模拟真实社会中的人际互动，使LLM能够学习到策略性沟通和团队合作的技巧。与以往方法相比，MPTT更注重培养LLM的类人思维模式和自我感知能力。

关键设计：在MPTT框架中，关键的设计包括：1) 使用特定的prompt来引导LLM进行自我视角分析、身份推断和自我反思；2) 设计了多轮发言和投票机制，鼓励LLM进行策略性沟通；3) 使用特定的评估指标来衡量LLM的决策质量和团队合作能力。具体的参数设置和损失函数等技术细节在论文中未详细说明，属于未知内容。

🖼️ 关键图片

📊 实验亮点

初步实验结果表明，MPTT框架能够有效提升LLM在“谁是卧底”游戏中的表现，使其能够模拟真实社会中的决策过程。人机交互实验表明，LLM可以通过互动学习并与人类行为保持一致，展现出积极参与社会决策的潜力。具体的性能数据和提升幅度在摘要中未明确给出，属于未知内容。

🎯 应用场景

该研究成果可应用于需要复杂人际互动和策略性决策的场景，例如：群体决策、谈判协商、客户服务等。通过训练LLM掌握多视角思考和团队合作的技巧，可以提高决策效率和质量，促进公平和多样性。未来，该研究有望推动LLM在社会治理、公共服务等领域的应用，使其更好地服务于人类社会。

📄 摘要（原文）

Large Language Models (LLMs) are pivotal AI agents in complex tasks but still face challenges in open decision-making problems within complex scenarios. To address this, we use the language logic game ``Who is Undercover?'' (WIU) as an experimental platform to propose the Multi-Perspective Team Tactic (MPTT) framework. MPTT aims to cultivate LLMs' human-like language expression logic, multi-dimensional thinking, and self-perception in complex scenarios. By alternating speaking and voting sessions, integrating techniques like self-perspective, identity-determination, self-reflection, self-summary and multi-round find-teammates, LLM agents make rational decisions through strategic concealment and communication, fostering human-like trust. Preliminary results show that MPTT, combined with WIU, leverages LLMs' cognitive capabilities to create a decision-making framework that can simulate real society. This framework aids minority groups in communication and expression, promoting fairness and diversity in decision-making. Additionally, our Human-in-the-loop experiments demonstrate that LLMs can learn and align with human behaviors through interactive, indicating their potential for active participation in societal decision-making.

Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理