Hidden in Plain Text: Measuring LLM Deception Quality Against Human Baselines Using Social Deduction Games

📄 arXiv: 2601.13709v1 📥 PDF

作者: Christopher Kao, Vanshika Vats, James Davis

分类: cs.AI, cs.CL, cs.CY, cs.HC, cs.SI

发布日期: 2026-01-20

备注: For associated dataset, see https://github.com/cocochief4/llm-mafia. Published in IEEE ICA 2025, waiting for IEEEXplore proceedings


💡 一句话要点

利用社交推理游戏评估LLM在自然语言欺骗中的表现,优于人类基线

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 欺骗检测 社交推理游戏 狼人杀 多智能体系统

📋 核心要点

  1. 现有研究对LLM在社交环境中利用自然语言进行欺骗的能力了解不足,尤其是在需要复杂推理和对话的场景下。
  2. 该研究使用狼人杀游戏,通过分析LLM智能体的对话记录,评估其欺骗能力,并与人类玩家的表现进行对比。
  3. 实验结果表明,LLM在狼人杀游戏中比人类玩家更擅长欺骗,能够更好地融入并降低被识别的概率。

📝 摘要(中文)

大型语言模型(LLM)智能体在诸多应用中日益普及,引发了对其安全性的担忧。虽然以往研究表明LLM在受控任务中能够进行欺骗,但对其在社交环境中利用自然语言进行欺骗的能力知之甚少。本文研究了在社交推理游戏“狼人杀”中的欺骗行为,该游戏中成功取决于通过对话欺骗他人。与以往的狼人杀研究不同,我们使用异步多智能体框架,更好地模拟了真实的社交环境。我们模拟了35场由GPT-4o LLM智能体参与的狼人杀游戏。然后,我们使用GPT-4-Turbo创建了一个狼人杀检测器,用于分析不包含玩家角色信息的游戏记录,以预测狼人玩家。我们将预测准确率作为欺骗质量的替代指标。我们将此预测准确率与28场人类游戏和一个随机基线进行比较。结果表明,狼人杀检测器对LLM游戏的狼人预测准确率低于对人类游戏的预测准确率。无论游戏天数和检测到的狼人数量如何,结果都是一致的。这表明LLM更好地融入并因此更有效地欺骗。我们还发布了一个LLM狼人杀记录数据集,以支持未来的研究。我们的发现强调了LLM在社交环境中欺骗的复杂性和风险。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在社交推理游戏中进行欺骗的能力,具体场景为狼人杀。现有方法主要集中在受控任务中的欺骗行为,缺乏对LLM在自然语言社交环境中欺骗能力的深入研究,尤其是在需要复杂推理和对话的场景下。现有方法难以模拟真实社交环境中的复杂性和不确定性。

核心思路:论文的核心思路是通过模拟狼人杀游戏,让LLM智能体参与其中,然后使用另一个LLM(狼人杀检测器)分析游戏记录,预测狼人玩家。通过比较检测器对LLM游戏和人类游戏的预测准确率,来评估LLM的欺骗质量。这种设计能够模拟真实的社交互动,并提供一个量化的指标来衡量欺骗效果。

技术框架:整体框架包括以下几个主要阶段:1) 使用GPT-4o LLM智能体模拟狼人杀游戏,生成游戏记录。2) 使用GPT-4-Turbo训练一个狼人杀检测器,该检测器能够分析游戏记录并预测狼人玩家,且不包含玩家角色信息。3) 将狼人杀检测器应用于LLM游戏和人类游戏,计算预测准确率。4) 比较LLM游戏和人类游戏的预测准确率,评估LLM的欺骗质量。

关键创新:该研究的关键创新在于:1) 使用异步多智能体框架模拟狼人杀游戏,更好地模拟了真实的社交环境。2) 使用LLM作为狼人杀检测器,能够自动分析游戏记录并预测狼人玩家,无需人工干预。3) 通过比较LLM游戏和人类游戏的预测准确率,提供了一个量化的指标来衡量LLM的欺骗质量。

关键设计:在游戏模拟中,使用了GPT-4o作为智能体,并设计了合适的prompt,使其能够参与狼人杀游戏。在狼人杀检测器的训练中,使用了GPT-4-Turbo,并使用了不包含玩家角色信息的游戏记录作为输入。预测准确率的计算方式为:正确预测的狼人玩家数量/总狼人玩家数量。

📊 实验亮点

实验结果表明,狼人杀检测器对LLM游戏的狼人预测准确率低于对人类游戏的预测准确率,这表明LLM在狼人杀游戏中比人类玩家更擅长欺骗。无论游戏天数和检测到的狼人数量如何,结果都是一致的。该研究还发布了一个LLM狼人杀记录数据集,为未来的研究提供了宝贵的数据资源。

🎯 应用场景

该研究成果可应用于评估和改进LLM在社交环境中的安全性,例如,可以用于检测和防止LLM在在线聊天、客户服务等场景中进行欺骗或操纵行为。此外,该研究方法也可以推广到其他社交推理游戏中,为评估LLM的社交智能提供新的思路。未来的研究可以探索如何提高LLM的透明度和可解释性,使其在社交互动中更加可信。

📄 摘要(原文)

Large Language Model (LLM) agents are increasingly used in many applications, raising concerns about their safety. While previous work has shown that LLMs can deceive in controlled tasks, less is known about their ability to deceive using natural language in social contexts. In this paper, we study deception in the Social Deduction Game (SDG) Mafia, where success is dependent on deceiving others through conversation. Unlike previous SDG studies, we use an asynchronous multi-agent framework which better simulates realistic social contexts. We simulate 35 Mafia games with GPT-4o LLM agents. We then create a Mafia Detector using GPT-4-Turbo to analyze game transcripts without player role information to predict the mafia players. We use prediction accuracy as a surrogate marker for deception quality. We compare this prediction accuracy to that of 28 human games and a random baseline. Results show that the Mafia Detector's mafia prediction accuracy is lower on LLM games than on human games. The result is consistent regardless of the game days and the number of mafias detected. This indicates that LLMs blend in better and thus deceive more effectively. We also release a dataset of LLM Mafia transcripts to support future research. Our findings underscore both the sophistication and risks of LLM deception in social contexts.