Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction

📄 arXiv: 2407.13943v1 📥 PDF

作者: Suma Bailis, Jane Friedhoff, Feiyang Chen

分类: cs.CL, cs.AI

发布日期: 2024-07-18

备注: 13 pages, 10 figures


💡 一句话要点

提出狼人竞技场:通过社交推理游戏评估大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 社交推理 狼人杀 博弈论 人机交互

📋 核心要点

  1. 现有LLM评估缺乏在复杂社交互动中测试模型推理和沟通能力的有效方法。
  2. 狼人竞技场利用狼人杀游戏,构建LLM参与欺骗、推理和说服的动态环境。
  3. 实验结果揭示了不同LLM在策略推理和沟通方面的优缺点,验证了框架的有效性。

📝 摘要(中文)

本文介绍了一种新颖的框架——狼人竞技场,旨在通过经典社交推理游戏“狼人杀”来评估大型语言模型(LLM)。在狼人竞技场中,LLM相互竞争,驾驭游戏中复杂的欺骗、推理和说服等动态。该框架引入了一种基于竞价的动态轮换系统,模拟了现实世界中人们策略性地选择发言时机的讨论。我们通过一个包含 Gemini 和 GPT 模型的竞技场式锦标赛,展示了该框架的实用性。结果揭示了这些模型在战略推理和沟通方面的明显优势和劣势。这些发现突显了狼人竞技场作为具有挑战性和可扩展性的 LLM 基准的潜力。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估方法通常侧重于知识问答、文本生成等任务,缺乏对LLM在复杂社交互动中进行推理、欺骗和说服能力的有效评估。传统的评估方法难以捕捉LLM在动态、策略性环境下的表现,无法充分揭示其在社交智能方面的局限性。

核心思路:本文的核心思路是将LLM置于狼人杀游戏中,通过模拟真实社交场景,迫使LLM进行策略性思考、信息分析和语言表达。狼人杀游戏的复杂性在于其包含欺骗、推理、合作和竞争等多种社交元素,能够全面考察LLM的社交智能。通过观察LLM在游戏中的行为,可以更深入地了解其在复杂社交环境下的推理和沟通能力。

技术框架:狼人竞技场框架包含以下主要模块:1) 游戏环境:模拟狼人杀游戏规则,包括角色分配、白天黑夜轮换、投票机制等。2) LLM玩家:每个LLM扮演游戏中的一个角色,根据游戏状态进行决策和发言。3) 竞价系统:引入基于竞价的动态轮换系统,允许LLM策略性地选择发言时机。4) 评估指标:设计一系列指标来评估LLM在游戏中的表现,例如胜率、发言质量、欺骗成功率等。

关键创新:该框架的关键创新在于将狼人杀游戏作为LLM评估的平台,创造了一个动态、策略性的社交环境。传统的LLM评估方法通常是静态的、单向的,而狼人竞技场则允许LLM之间进行互动和竞争,从而更真实地反映其在实际应用中的表现。此外,基于竞价的轮换系统也模拟了真实世界中人们策略性地选择发言时机的场景,提高了评估的真实性和有效性。

关键设计:竞价系统是关键设计之一,每个LLM玩家根据自身角色、当前局势和发言意愿,对发言机会进行竞价。竞价策略可以基于多种因素,例如信息量、风险评估和收益预期。另一个关键设计是评估指标,除了胜率之外,还包括发言内容的情感分析、逻辑一致性、信息量等指标,以更全面地评估LLM的表现。具体参数设置和损失函数的设计则依赖于具体的LLM和游戏配置,论文中可能未详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的LLM在狼人竞技场中表现出不同的优势和劣势。例如,某些模型在欺骗方面表现出色,能够成功地误导其他玩家,而另一些模型则更擅长推理和分析,能够准确地识别狼人。这些发现为LLM的改进提供了有价值的 insights,并验证了狼人竞技场作为LLM基准的有效性。具体的性能数据和提升幅度未知。

🎯 应用场景

狼人竞技场框架可应用于评估和改进LLM在社交互动、谈判协商、客户服务等领域的应用。通过该框架,可以发现LLM在欺骗检测、情感理解和策略制定方面的不足,并针对性地进行优化。此外,该框架还可以用于训练LLM的社交智能,使其更好地适应复杂的人际交往环境,提升其在实际应用中的表现。

📄 摘要(原文)

This paper introduces Werewolf Arena, a novel framework for evaluating large language models (LLMs) through the lens of the classic social deduction game, Werewolf. In Werewolf Arena, LLMs compete against each other, navigating the game's complex dynamics of deception, deduction, and persuasion. The framework introduces a dynamic turn-taking system based on bidding, mirroring real-world discussions where individuals strategically choose when to speak. We demonstrate the framework's utility through an arena-style tournament featuring Gemini and GPT models. Our results reveal distinct strengths and weaknesses in the models' strategic reasoning and communication. These findings highlight Werewolf Arena's potential as a challenging and scalable LLM benchmark.