Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game

📄 arXiv: 2410.15311v1 📥 PDF

作者: Ruiqi Dong, Zhixuan Liao, Guangwei Lai, Yuhan Ma, Danni Ma, Chenyou Fan

分类: cs.AI, cs.CL, cs.CY

发布日期: 2024-10-20


💡 一句话要点

提出MPTT框架,引导LLM在“谁是卧底”游戏中探索多视角团队策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多视角团队策略 谁是卧底 人机交互 策略性决策

📋 核心要点

  1. LLM在复杂场景的开放决策中存在挑战,缺乏类人语言逻辑和多维思维。
  2. MPTT框架通过模拟“谁是卧底”游戏,培养LLM的自我感知、策略隐藏和沟通能力。
  3. 实验表明,MPTT能使LLM模拟真实社会决策,促进公平和多样性,并与人类行为对齐。

📝 摘要(中文)

大型语言模型(LLMs)在复杂任务中是关键的AI智能体,但在复杂场景中的开放决策问题中仍然面临挑战。为了解决这个问题,我们使用语言逻辑游戏“谁是卧底” (WIU) 作为实验平台,提出了多视角团队策略 (MPTT) 框架。MPTT旨在培养LLMs类人的语言表达逻辑、多维思维和在复杂场景中的自我感知。通过交替的发言和投票环节,整合诸如自我视角、身份确定、自我反思、自我总结和多轮寻找队友等技术,LLM智能体通过战略性的隐藏和沟通做出理性的决策,培养类人的信任。初步结果表明,MPTT结合WIU,利用LLMs的认知能力创建一个可以模拟真实社会的决策框架。该框架有助于少数群体进行沟通和表达,促进决策的公平性和多样性。此外,我们的人在环实验表明,LLMs可以通过互动学习并与人类行为保持一致,表明它们有潜力积极参与社会决策。

🔬 方法详解

问题定义:现有的大型语言模型在复杂场景下的开放式决策问题中表现不足,尤其是在需要团队合作和策略性欺骗的场景中。现有方法难以赋予LLM类人的语言表达逻辑、多维思维和自我感知能力,导致其在类似“谁是卧底”这样的游戏中难以做出最优决策。

核心思路:论文的核心思路是构建一个多视角团队策略(MPTT)框架,通过模拟“谁是卧底”游戏,让LLM在发言和投票的交替过程中,学习如何进行策略性隐藏和沟通,从而做出更合理的决策。这种设计旨在培养LLM的类人思维模式,使其能够更好地理解和适应复杂的人际互动场景。

技术框架:MPTT框架主要包含以下几个阶段:1) 自我视角:LLM首先从自身角度理解游戏规则和自身身份;2) 身份确定:LLM尝试推断其他玩家的身份;3) 自我反思:LLM反思自己的行为和决策,评估其有效性;4) 自我总结:LLM总结当前局势,形成对整体情况的理解;5) 多轮寻找队友:LLM通过多轮发言和投票,尝试找到自己的队友。这些阶段循环进行,直到游戏结束。

关键创新:该论文的关键创新在于将“谁是卧底”游戏作为LLM学习和评估的平台,并提出了MPTT框架,该框架通过模拟真实社会中的人际互动,使LLM能够学习到策略性沟通和团队合作的技巧。与以往方法相比,MPTT更注重培养LLM的类人思维模式和自我感知能力。

关键设计:在MPTT框架中,关键的设计包括:1) 使用特定的prompt来引导LLM进行自我视角分析、身份推断和自我反思;2) 设计了多轮发言和投票机制,鼓励LLM进行策略性沟通;3) 使用特定的评估指标来衡量LLM的决策质量和团队合作能力。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

初步实验结果表明,MPTT框架能够有效提升LLM在“谁是卧底”游戏中的表现,使其能够模拟真实社会中的决策过程。人机交互实验表明,LLM可以通过互动学习并与人类行为保持一致,展现出积极参与社会决策的潜力。具体的性能数据和提升幅度在摘要中未明确给出,属于未知内容。

🎯 应用场景

该研究成果可应用于需要复杂人际互动和策略性决策的场景,例如:群体决策、谈判协商、客户服务等。通过训练LLM掌握多视角思考和团队合作的技巧,可以提高决策效率和质量,促进公平和多样性。未来,该研究有望推动LLM在社会治理、公共服务等领域的应用,使其更好地服务于人类社会。

📄 摘要(原文)

Large Language Models (LLMs) are pivotal AI agents in complex tasks but still face challenges in open decision-making problems within complex scenarios. To address this, we use the language logic game ``Who is Undercover?'' (WIU) as an experimental platform to propose the Multi-Perspective Team Tactic (MPTT) framework. MPTT aims to cultivate LLMs' human-like language expression logic, multi-dimensional thinking, and self-perception in complex scenarios. By alternating speaking and voting sessions, integrating techniques like self-perspective, identity-determination, self-reflection, self-summary and multi-round find-teammates, LLM agents make rational decisions through strategic concealment and communication, fostering human-like trust. Preliminary results show that MPTT, combined with WIU, leverages LLMs' cognitive capabilities to create a decision-making framework that can simulate real society. This framework aids minority groups in communication and expression, promoting fairness and diversity in decision-making. Additionally, our Human-in-the-loop experiments demonstrate that LLMs can learn and align with human behaviors through interactive, indicating their potential for active participation in societal decision-making.