Exploring Large Language Models for Word Games:Who is the Spy?

📄 arXiv: 2503.15235v1 📥 PDF

作者: Chentian Wei, Jiewei Chen, Jinzhu Xu

分类: cs.CL, cs.AI

发布日期: 2025-03-19

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于CoT的调度框架,提升LLM在“谁是卧底”游戏中角色推断和身份伪装能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 思维链 文字游戏 谁是卧底 情境推理 角色扮演 人机交互

📋 核心要点

  1. 现有方法难以让LLM有效参与文字游戏,尤其是在角色扮演和情境推理方面存在挑战。
  2. 论文提出基于CoT的调度框架,引导LLM进行角色推断和身份伪装,无需额外训练。
  3. 实验表明,该框架显著提升了LLM在“谁是卧底”游戏中的表现,验证了其有效性。

📝 摘要(中文)

本研究探讨了大型语言模型(LLMs)在文字游戏中的应用,这类游戏因其基于规则和情境的特性,对自然语言处理(NLP)、博弈论及相关领域具有重要的研究价值。论文提出了一个无需训练的框架,旨在使LLMs能够有效地参与文字游戏。以经典文字游戏“谁是卧底”为例,论文引入了一个基于思维链(CoT)的调度框架,使LLMs能够在推断角色词汇和伪装身份等任务中表现出色。通过游戏成功率和LLM智能体分析结果的准确性来评估框架的性能。实验结果证实了该框架的有效性,表明LLM在多个数据集上的性能得到了显著提高。这项工作突出了LLMs在掌握结构化游戏环境中的情境推理和社会互动方面的潜力。代码已公开。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在复杂文字游戏,特别是“谁是卧底”这类需要情境推理和角色扮演的游戏中表现不佳的问题。现有方法通常难以让LLMs有效地理解游戏规则、推断角色身份,并进行合理的策略性行动。痛点在于LLMs缺乏在特定游戏情境下的推理和决策能力,以及有效伪装自身身份以迷惑其他玩家的能力。

核心思路:论文的核心思路是利用思维链(Chain-of-Thought, CoT)提示方法,引导LLMs逐步进行推理和决策。通过将复杂的任务分解为一系列中间步骤,LLMs可以更好地理解游戏情境,推断其他玩家的意图,并制定相应的策略。此外,通过精心设计的提示语,LLMs可以学习如何伪装自己的身份,避免被其他玩家识破。

技术框架:论文提出的框架主要包含以下几个模块:1) 游戏状态感知模块:该模块负责接收游戏当前的状态信息,例如玩家列表、词汇信息等。2) CoT推理模块:该模块利用CoT提示方法,引导LLMs进行角色推断、策略制定和行动选择。3) 行动执行模块:该模块负责将LLMs的行动指令转化为实际的游戏操作。4) 反馈学习模块:该模块根据游戏结果,对LLMs的推理和决策过程进行优化。整体流程是,游戏状态感知模块获取游戏信息,CoT推理模块进行推理和决策,行动执行模块执行操作,最后反馈学习模块进行优化。

关键创新:论文的关键创新在于提出了一个基于CoT的调度框架,该框架能够有效地引导LLMs进行角色推断和身份伪装。与传统的直接提示方法相比,CoT提示方法能够显著提高LLMs的推理能力和决策水平。此外,该框架无需额外的训练,可以直接应用于不同的文字游戏。

关键设计:论文的关键设计包括:1) CoT提示语的设计:论文精心设计了一系列CoT提示语,引导LLMs逐步进行推理和决策。这些提示语包括角色描述、词汇解释、策略建议等。2) 行动选择策略:论文设计了一种基于概率的行动选择策略,使LLMs能够根据当前的游戏状态和自身的推理结果,选择最优的行动。3) 反馈学习机制:论文设计了一种基于奖励的反馈学习机制,使LLMs能够根据游戏结果,不断优化自身的推理和决策过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,论文提出的基于CoT的调度框架能够显著提高LLMs在“谁是卧底”游戏中的表现。在多个数据集上,LLMs的游戏成功率和分析结果的准确性都得到了显著提升。与基线方法相比,该框架能够使LLMs更好地理解游戏规则、推断角色身份,并进行合理的策略性行动。具体提升幅度未知,但实验结果明确表明了该框架的有效性。

🎯 应用场景

该研究成果可应用于各种需要情境推理和角色扮演的场景,例如智能客服、虚拟助手、社交机器人等。通过将LLMs与游戏环境相结合,可以提高LLMs在复杂情境下的理解和决策能力。此外,该研究还可以促进人机交互技术的发展,使人机交互更加自然和流畅。未来,该技术有望应用于教育、娱乐、医疗等多个领域。

📄 摘要(原文)

Word games hold significant research value for natural language processing (NLP), game theory, and related fields due to their rule-based and situational nature. This study explores how large language models (LLMs) can be effectively involved in word games and proposes a training-free framework. "Shei Shi Wo Di" or "Who is the Spy" in English, is a classic word game. Using this game as an example, we introduce a Chain-of-Thought (CoT)-based scheduling framework to enable LLMs to achieve excellent performance in tasks such as inferring role words and disguising their identities. We evaluate the framework's performance based on game success rates and the accuracy of the LLM agents' analytical results. Experimental results affirm the framework's effectiveness, demonstrating notable improvements in LLM performance across multiple datasets. This work highlights the potential of LLMs in mastering situational reasoning and social interactions within structured game environments. Our code is publicly available at https://github.com/ct-wei/Who-is-The-Spy.