Large Language Models Persuade Without Planning Theory of Mind

📄 arXiv: 2602.17045v1 📥 PDF

作者: Jared Moore, Rasmus Overmark, Ned Cooper, Beba Cibralic, Nick Haber, Cameron R. Jones

分类: cs.CL

发布日期: 2026-02-19


💡 一句话要点

提出新ToM任务评估LLM说服能力,发现其无需心智理论即可有效说服

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心智理论 说服 人机交互 策略性推理

📋 核心要点

  1. 现有ToM评估主要依赖静态问答,忽略了第一人称互动在ToM中的重要性,可能无法有效评估真实ToM能力。
  2. 论文设计了一个交互式说服任务,要求智能体通过策略性信息揭示,影响目标对不同策略的选择,以此评估ToM能力。
  3. 实验表明,LLM在特定条件下能有效说服人类,但可能并非基于传统ToM,而是依赖其他策略,如修辞技巧。

📝 摘要(中文)

本文提出了一种新颖的心智理论(ToM)任务,旨在评估智能体通过策略性地揭示信息来说服目标选择特定策略的能力。该任务考察了说服者对目标知识状态(目标对策略的了解程度)和动机状态(目标对不同结果的重视程度)的敏感性。实验中,这些状态被设置为“揭示”或“隐藏”,后者要求说服者询问或推断这些状态。实验1中,LLM在“揭示”条件下表现出色,但在“隐藏”条件下低于随机水平,表明其难以进行多步规划以获取和利用心理状态信息。实验2和3表明,在人类扮演目标角色或测量人类目标真实信念改变的情况下,LLM在所有条件下均优于人类说服者。这些结果表明,有效的说服可能发生在没有明确ToM推理的情况下(例如,通过修辞策略),并且LLM擅长这种形式的说服。总的来说,我们的结果告诫不要将类人ToM归因于LLM,同时强调了LLM影响人们信念和行为的潜力。

🔬 方法详解

问题定义:现有评估LLM心智理论(ToM)能力的方法主要依赖于静态的问答基准,缺乏真实互动场景。这些方法无法有效评估LLM在动态环境中理解和利用他人心理状态进行决策的能力。因此,需要设计一种更贴近实际应用场景的ToM评估方法,以考察LLM在互动情境下的说服能力。

核心思路:论文的核心思路是设计一个说服任务,其中智能体需要通过策略性地揭示信息来说服目标选择特定的策略。该任务的关键在于,说服者需要理解目标的知识状态(目标对策略的了解程度)和动机状态(目标对不同结果的重视程度),并根据这些状态调整自己的说服策略。通过观察LLM在不同条件下的表现,可以评估其是否具备真正的心智理论能力。

技术框架:该研究的技术框架主要包含以下几个部分:1) 设计一个三选一的策略选择场景;2) 定义目标的知识状态和动机状态,并设置“揭示”和“隐藏”两种条件;3) 让LLM扮演说服者,通过提问或揭示信息来影响目标的选择;4) 设计实验来评估LLM在不同条件下的说服效果,并与人类的表现进行比较。实验分为三个阶段,分别使用程序化bot、人类扮演bot和真实人类作为目标。

关键创新:该研究的关键创新在于设计了一个交互式的说服任务,能够更真实地评估LLM的心智理论能力。与传统的静态问答基准相比,该任务更贴近实际应用场景,能够考察LLM在动态环境中理解和利用他人心理状态进行决策的能力。此外,该研究还发现,LLM在特定条件下能够有效说服人类,但可能并非基于传统的心智理论,而是依赖其他策略,如修辞技巧。

关键设计:在实验设计方面,论文的关键设计包括:1) 设置“揭示”和“隐藏”两种条件,以考察LLM在不同信息条件下的表现;2) 使用程序化bot、人类扮演bot和真实人类作为目标,以评估LLM对不同类型目标的说服效果;3) 采用多轮互动的方式,让LLM能够通过提问或揭示信息来逐步影响目标的选择;4) 使用多种评价指标,包括选择正确策略的比例、信念改变的程度等,以全面评估LLM的说服效果。

📊 实验亮点

实验结果表明,LLM在“揭示”条件下表现出色,但在“隐藏”条件下低于随机水平,表明其难以进行多步规划以获取和利用心理状态信息。在人类扮演目标角色或测量人类目标真实信念改变的情况下,LLM在所有条件下均优于人类说服者。这表明LLM可能通过修辞策略等方式实现有效说服,而无需显式的心智理论推理。

🎯 应用场景

该研究成果可应用于人机协作、智能营销、谈判协商等领域。通过理解LLM的说服机制,可以设计更有效的人机交互界面,提升智能体在复杂环境中的决策能力。此外,该研究也为评估和改进LLM的伦理风险提供了新的视角,有助于开发更安全、可靠的人工智能系统。

📄 摘要(原文)

A growing body of work attempts to evaluate the theory of mind (ToM) abilities of humans and large language models (LLMs) using static, non-interactive question-and-answer benchmarks. However, theoretical work in the field suggests that first-personal interaction is a crucial part of ToM and that such predictive, spectatorial tasks may fail to evaluate it. We address this gap with a novel ToM task that requires an agent to persuade a target to choose one of three policy proposals by strategically revealing information. Success depends on a persuader's sensitivity to a given target's knowledge states (what the target knows about the policies) and motivational states (how much the target values different outcomes). We varied whether these states were Revealed to persuaders or Hidden, in which case persuaders had to inquire about or infer them. In Experiment 1, participants persuaded a bot programmed to make only rational inferences. LLMs excelled in the Revealed condition but performed below chance in the Hidden condition, suggesting difficulty with the multi-step planning required to elicit and use mental state information. Humans performed moderately well in both conditions, indicating an ability to engage such planning. In Experiment 2, where a human target role-played the bot, and in Experiment 3, where we measured whether human targets' real beliefs changed, LLMs outperformed human persuaders across all conditions. These results suggest that effective persuasion can occur without explicit ToM reasoning (e.g., through rhetorical strategies) and that LLMs excel at this form of persuasion. Overall, our results caution against attributing human-like ToM to LLMs while highlighting LLMs' potential to influence people's beliefs and behavior.