Among Them: A game-based framework for assessing persuasion capabilities of LLMs

📄 arXiv: 2502.20426v1 📥 PDF

作者: Mateusz Idziejczak, Vasyl Korzavatykh, Mateusz Stawicki, Andrii Chmutov, Marcin Korcz, Iwo Błądek, Dariusz Brzezinski

分类: cs.CL, cs.AI, cs.CY, cs.MA

发布日期: 2025-02-27

DOI: 10.1007/978-981-96-8186-0_15


💡 一句话要点

提出基于“Among Us”游戏的框架,评估LLM的说服能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 说服能力评估 欺骗检测 社交互动 AI安全

📋 核心要点

  1. 现有研究缺乏对不同LLM模型说服能力的系统性评估,难以全面了解其潜在风险。
  2. 设计了一个基于“Among Us”游戏的评估框架,量化LLM在欺骗和说服方面的能力。
  3. 实验结果表明,所有测试模型都具备说服能力,但模型大小与说服力之间没有直接关联。

📝 摘要(中文)

大型语言模型(LLM)和自主AI代理的普及引发了对其自动说服和社会影响潜力的担忧。虽然现有研究探索了基于LLM的操纵行为的孤立实例,但对不同模型说服能力的系统评估仍然有限。本文提出了一个受“Among Us”游戏启发的框架,用于在受控环境中评估LLM的欺骗技能。该框架可以通过游戏统计数据比较LLM模型,并根据社会心理学和修辞学中的25种说服策略量化游戏中的操纵行为。对8个不同类型和规模的流行语言模型进行的实验表明,所有测试模型都表现出说服能力,成功地使用了25种预期技术中的22种。研究还发现,较大的模型并没有提供优于较小模型的说服优势,并且较长的模型输出与赢得的游戏数量呈负相关。这项研究深入了解了LLM的欺骗能力,并为促进未来对该主题的研究提供了工具和数据。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大型语言模型(LLM)的说服能力的问题。现有方法通常侧重于孤立的操纵实例,缺乏在受控环境中对不同模型进行比较和量化的能力。因此,需要一个能够模拟真实社交互动并量化LLM说服策略的框架。

核心思路:论文的核心思路是利用“Among Us”游戏作为LLM进行社交互动和欺骗的平台。该游戏提供了一个明确的角色扮演环境,其中LLM可以扮演船员或冒名顶替者,并通过文本交流来说服其他玩家。通过分析LLM在游戏中的行为和文本输出,可以评估其说服能力和使用的策略。

技术框架:该框架包含以下主要模块:1) 游戏环境:模拟“Among Us”游戏规则和场景。2) LLM代理:每个LLM扮演一个游戏角色,根据游戏状态和目标生成文本消息。3) 说服策略分析器:根据社会心理学和修辞学理论,识别LLM使用的说服策略。4) 评估指标:包括游戏胜率、使用的说服策略数量和类型等。整体流程是,LLM代理在游戏环境中进行交互,其行为和输出被记录并分析,最终生成评估报告。

关键创新:该研究的关键创新在于将“Among Us”游戏作为评估LLM说服能力的平台。与传统的文本生成任务不同,该框架提供了一个动态的社交环境,迫使LLM在与其他智能体交互时运用说服策略。此外,该框架还提供了一套量化的评估指标,可以比较不同LLM模型的说服能力。

关键设计:框架的关键设计包括:1) 选择了25种来自社会心理学和修辞学的说服策略,用于分析LLM的文本输出。2) 设计了游戏规则和角色分配,以确保LLM有动机使用说服策略。3) 采用了多种评估指标,包括游戏胜率、策略使用频率和成功率等。4) 实验中使用了8个不同类型和规模的LLM模型,以进行比较分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有测试的LLM模型都表现出说服能力,成功使用了25种预期策略中的22种。研究还发现,模型大小与说服力之间没有显著相关性,较大的模型并没有提供明显的优势。此外,较长的模型输出与赢得的游戏数量呈负相关,这表明简洁有效的沟通可能更具说服力。

🎯 应用场景

该研究成果可应用于评估和改进AI代理的安全性,防止其被用于恶意操纵或欺骗。此外,该框架还可以用于开发更具人情味和说服力的AI助手,例如在教育、医疗和客户服务等领域。未来的研究可以探索更复杂的社交场景和更高级的说服策略。

📄 摘要(原文)

The proliferation of large language models (LLMs) and autonomous AI agents has raised concerns about their potential for automated persuasion and social influence. While existing research has explored isolated instances of LLM-based manipulation, systematic evaluations of persuasion capabilities across different models remain limited. In this paper, we present an Among Us-inspired game framework for assessing LLM deception skills in a controlled environment. The proposed framework makes it possible to compare LLM models by game statistics, as well as quantify in-game manipulation according to 25 persuasion strategies from social psychology and rhetoric. Experiments between 8 popular language models of different types and sizes demonstrate that all tested models exhibit persuasive capabilities, successfully employing 22 of the 25 anticipated techniques. We also find that larger models do not provide any persuasion advantage over smaller models and that longer model outputs are negatively correlated with the number of games won. Our study provides insights into the deception capabilities of LLMs, as well as tools and data for fostering future research on the topic.