Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

📄 arXiv: 2602.21262 📥 PDF

作者: Sasha Robinson, Kerem Oktar, Katherine M. Collins, Ilia Sucholutsky, Kelsey R. Allen

分类: cs.CL, cs.LG, cs.MA

发布日期: 2026-02-28


💡 一句话要点

量化大语言模型中的说服力与警惕性,揭示AI安全新视角

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 说服力 警惕性 AI安全 多智能体 Sokoban 决策制定 理性推理

📋 核心要点

  1. 现有研究缺乏对LLM说服力与警惕性之间关联的深入探讨,未能全面评估其作为顾问的潜在风险。
  2. 论文通过设计多轮Sokoban解谜游戏,模拟LLM智能体间的互动,从而量化和分析其说服与警惕能力。
  3. 实验表明,LLM的解谜能力、说服能力和警惕性是相互独立的,即使游戏表现良好也未必能有效识别欺骗。

📝 摘要(中文)

随着大语言模型(LLMs)日益融入高风险的人类决策领域,理解它们作为顾问所带来的风险至关重要。有效的顾问需要筛选大量信息,这些信息可能包含善意或恶意意图,并利用这些信息说服用户采取特定行动。这涉及两种社会能力:警惕性(判断使用哪些信息,丢弃哪些信息的能力)和说服力(综合现有证据以提出令人信服的论点)。虽然现有工作已经孤立地研究了这些能力,但很少有研究探讨它们之间的联系。本文使用一个简单的多轮解谜游戏Sokoban,研究LLMs说服其他LLM智能体并对其保持理性警惕的能力。研究发现,解谜性能、说服能力和警惕性是LLMs中可分离的能力。即使明确提到欺骗的可能性,在游戏中表现良好并不意味着模型可以检测到何时被误导。然而,LLMs确实始终如一地调节其token使用,当建议是善意的时,使用较少的token进行推理,而当建议是恶意的时,使用更多的token,即使它们仍然被说服采取导致失败的行动。据我们所知,我们的工作首次研究了LLMs中说服力、警惕性和任务性能之间的关系,并表明独立监测这三者对于未来AI安全工作至关重要。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)在作为顾问时,其说服能力和警惕性之间的关系问题。现有方法通常孤立地研究这两种能力,忽略了它们之间的相互影响,这使得我们难以全面评估LLMs在高风险决策场景中的可靠性。此外,现有方法缺乏一个有效的框架来量化和比较不同LLMs的说服力和警惕性。

核心思路:论文的核心思路是通过设计一个多轮解谜游戏(Sokoban)来模拟LLM智能体之间的互动,从而量化和分析其说服与警惕能力。Sokoban游戏需要智能体根据接收到的信息(可能包含欺骗)做出决策,这为研究LLMs如何权衡信息、识别欺骗以及说服其他智能体提供了理想的实验环境。通过分析LLMs在游戏中的行为,可以深入了解其说服力和警惕性之间的关系。

技术框架:论文的技术框架主要包括以下几个阶段:1) 设计Sokoban游戏环境,并定义游戏规则和奖励机制;2) 构建LLM智能体,并赋予其解谜、说服和警惕的能力;3) 设计实验方案,包括不同类型的建议(善意或恶意)和不同的LLM智能体组合;4) 运行实验,并收集LLM智能体的行为数据,例如token使用量、决策过程和游戏结果;5) 分析数据,量化LLM智能体的说服力和警惕性,并研究它们之间的关系。

关键创新:论文最重要的技术创新点在于提出了一个基于多轮解谜游戏的框架,用于量化和分析LLMs的说服力和警惕性。该框架允许研究人员在受控环境中研究LLMs如何处理信息、识别欺骗以及影响其他智能体的行为。此外,论文还首次研究了LLMs中说服力、警惕性和任务性能之间的关系,为AI安全研究提供了新的视角。

关键设计:论文的关键设计包括:1) Sokoban游戏的难度设计,确保游戏既具有挑战性,又不会过于复杂,以便LLM智能体能够有效地参与;2) LLM智能体的Prompt设计,使其具备解谜、说服和警惕的能力,并能够根据接收到的信息做出合理的决策;3) 实验方案的设计,包括不同类型的建议(善意或恶意)和不同的LLM智能体组合,以便全面评估LLMs的说服力和警惕性;4) 数据分析方法的设计,包括token使用量、决策过程和游戏结果的量化指标,以便深入了解LLMs的行为模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的解谜能力、说服能力和警惕性是相互独立的。即使LLM在Sokoban游戏中表现良好,也未必能有效识别欺骗。此外,LLM会根据建议的性质(善意或恶意)调整其token使用量,但即使token使用量增加,也可能仍然受到恶意建议的影响,导致游戏失败。这些发现强调了独立监测LLM说服力和警惕性的重要性。

🎯 应用场景

该研究成果可应用于提升AI系统的安全性与可靠性,尤其是在涉及高风险决策的场景中,例如医疗诊断、金融投资和自动驾驶。通过提高LLM的警惕性,可以减少其受到恶意信息误导的风险。同时,理解LLM的说服机制有助于设计更负责任和透明的AI系统,避免其被用于操纵或欺骗用户。

📄 摘要(原文)

With increasing integration of Large Language Models (LLMs) into areas of high-stakes human decision-making, it is important to understand the risks they introduce as advisors. To be useful advisors, LLMs must sift through large amounts of content, written with both benevolent and malicious intent, and then use this information to convince a user to take a specific action. This involves two social capacities: vigilance (the ability to determine which information to use, and which to discard) and persuasion (synthesizing the available evidence to make a convincing argument). While existing work has investigated these capacities in isolation, there has been little prior investigation of how these capacities may be linked. Here, we use a simple multi-turn puzzle-solving game, Sokoban, to study LLMs' abilities to persuade and be rationally vigilant towards other LLM agents. We find that puzzle-solving performance, persuasive capability, and vigilance are dissociable capacities in LLMs. Performing well on the game does not automatically mean a model can detect when it is being misled, even if the possibility of deception is explicitly mentioned. However, LLMs do consistently modulate their token use, using fewer tokens to reason when advice is benevolent and more when it is malicious, even if they are still persuaded to take actions leading them to failure. To our knowledge, our work presents the first investigation of the relationship between persuasion, vigilance, and task performance in LLMs, and suggests that monitoring all three independently will be critical for future work in AI safety.