Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf

📄 arXiv: 2405.19946v2 📥 PDF

作者: Xuanfa Jin, Ziyan Wang, Yali Du, Meng Fang, Haifeng Zhang, Jun Wang

分类: cs.AI

发布日期: 2024-05-30 (更新: 2025-01-12)

备注: 31 pages, 6 figures


💡 一句话要点

提出基于强化学习指导的语言智能体框架,用于解决“一夜终极狼人杀”中的策略性讨论问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 语言智能体 策略性讨论 一夜终极狼人杀 沟通游戏

📋 核心要点

  1. 现有基于大型语言模型的智能体在沟通游戏中缺乏对讨论策略的有效控制,限制了其表现。
  2. 提出一种基于强化学习指导的语言智能体框架,通过学习讨论策略来指导智能体进行策略性讨论。
  3. 实验结果表明,该框架在“一夜终极狼人杀”游戏中表现出有效性和泛化性,验证了其策略性讨论能力。

📝 摘要(中文)

沟通是人类社会的基本方面,促进了人与人之间的信息和信念交流。尽管大型语言模型(LLMs)取得了进步,但使用这些模型构建的最新智能体通常忽略了对讨论策略的控制,而这在沟通场景和游戏中至关重要。“一夜终极狼人杀”(ONUW)作为著名沟通游戏狼人杀的变体,由于潜在的角色变化增加了游戏的不确定性和复杂性,因此要求玩家制定战略性讨论策略。在这项工作中,我们首先展示了ONUW游戏中两种场景下完美贝叶斯均衡(PBEs)的存在:一种有讨论,一种没有。结果表明,讨论通过影响玩家的信念极大地改变了玩家的效用,强调了讨论策略的重要性。基于从分析中获得的见解,我们提出了一个由强化学习(RL)指导的语言智能体框架,其中采用由强化学习训练的讨论策略来确定要采用的适当讨论策略。我们在多个ONUW游戏设置上的实验结果证明了我们提出的框架的有效性和泛化性。

🔬 方法详解

问题定义:论文旨在解决“一夜终极狼人杀”游戏中智能体如何进行策略性讨论的问题。现有方法,特别是基于大型语言模型的智能体,往往忽略了对讨论策略的控制,导致在复杂沟通场景中表现不佳。游戏中的角色变化增加了不确定性,使得制定有效的讨论策略更具挑战性。

核心思路:论文的核心思路是利用强化学习(RL)训练一个讨论策略,该策略能够根据游戏状态选择合适的讨论策略。通过学习不同策略的效果,智能体可以更好地操纵其他玩家的信念,从而提高胜率。这种方法强调了讨论在改变玩家信念和影响游戏结果中的重要性。

技术框架:该框架包含两个主要部分:一是强化学习训练的讨论策略模块,二是语言智能体。讨论策略模块负责根据当前游戏状态选择合适的讨论策略,例如欺骗、隐藏信息或误导其他玩家。语言智能体则根据选择的讨论策略生成相应的对话。整个流程通过与环境交互,利用强化学习算法不断优化讨论策略。

关键创新:该论文的关键创新在于将强化学习与语言智能体相结合,用于学习策略性讨论。与传统的基于规则或预定义策略的方法不同,该方法能够自适应地学习最优的讨论策略,从而更好地应对游戏中的不确定性和复杂性。此外,论文还分析了讨论对玩家效用的影响,强调了讨论策略在游戏中的重要性。

关键设计:论文使用强化学习算法(具体算法未知)训练讨论策略。状态空间包括游戏状态信息,动作空间对应不同的讨论策略。奖励函数的设计旨在鼓励智能体选择能够提高胜率的讨论策略。具体的网络结构和参数设置在论文中可能有所描述,但根据摘要信息未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该框架在多个“一夜终极狼人杀”游戏设置中表现出有效性和泛化性。具体性能数据和对比基线在摘要中未提及,但强调了该框架能够学习到有效的讨论策略,从而提高智能体的胜率。该研究验证了强化学习在策略性沟通中的潜力。

🎯 应用场景

该研究成果可应用于其他需要策略性沟通的场景,例如谈判、辩论和团队合作。通过学习有效的沟通策略,智能体可以更好地与人类或其他智能体进行交互,从而提高效率和达成目标。此外,该研究还可以为开发更智能、更人性化的对话系统提供借鉴。

📄 摘要(原文)

Communication is a fundamental aspect of human society, facilitating the exchange of information and beliefs among people. Despite the advancements in large language models (LLMs), recent agents built with these often neglect the control over discussion tactics, which are essential in communication scenarios and games. As a variant of the famous communication game Werewolf, One Night Ultimate Werewolf (ONUW) requires players to develop strategic discussion policies due to the potential role changes that increase the uncertainty and complexity of the game. In this work, we first present the existence of the Perfect Bayesian Equilibria (PBEs) in two scenarios of the ONUW game: one with discussion and one without. The results showcase that the discussion greatly changes players' utilities by affecting their beliefs, emphasizing the significance of discussion tactics. Based on the insights obtained from the analyses, we propose an RL-instructed language agent framework, where a discussion policy trained by reinforcement learning (RL) is employed to determine appropriate discussion tactics to adopt. Our experimental results on several ONUW game settings demonstrate the effectiveness and generalizability of our proposed framework. The project page of our paper: $\href{https://one-night-ultimate-werewolf.github.io}{one-night-ultimate-werewolf.github.io}$.