Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

作者: Hanqi Xiao, Vaidehi Patil, Zaid Khan, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-13

备注: First two authors contributed equally. Code: https://github.com/The-Inscrutable-X/AIDoubleAgentDefenders

💡 一句话要点

提出基于心智理论的双重间谍防御者，用于引导信念，提升LLM对抗攻击能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心智理论 信念引导 双重间谍 强化学习 对抗性对话 大型语言模型 隐私保护

📋 核心要点

现有大型语言模型在对抗性对话中，难以有效理解和操纵攻击者的信念，导致隐私泄露等安全问题。
提出ToM-SB挑战，要求防御者扮演双重间谍，通过心智理论引导攻击者的信念，使其误以为成功窃取信息。
实验表明，结合欺骗和心智理论奖励的AI双重间谍，在欺骗攻击者和心智理论建模方面均优于现有模型。

📝 摘要（中文）

随着大型语言模型（LLMs）成为对话系统的引擎，其推理对话伙伴意图和状态（即形成和使用心智理论，ToM）的能力对于与潜在的对抗性伙伴进行安全交互变得越来越重要。我们提出了一个新的隐私主题的ToM挑战，即用于引导信念的ToM（ToM-SB），其中防御者必须充当双重间谍，以引导攻击者在共享宇宙中具有部分先验知识的信念。为了在ToM-SB上取得成功，防御者必须与攻击者互动并形成ToM，目标是欺骗攻击者，使其相信他们已经成功提取了敏感信息。我们发现像Gemini3-Pro和GPT-5.4这样的强大前沿模型在ToM-SB上表现不佳，即使被提示推理攻击者的信念（ToM提示），也常常无法在具有部分攻击者先验知识的困难场景中欺骗攻击者。为了弥合这一差距，我们使用强化学习在ToM-SB上训练模型作为AI双重间谍，测试欺骗和ToM奖励。值得注意的是，我们发现ToM和攻击者欺骗之间存在双向涌现关系：单独奖励欺骗成功会提高ToM，而单独奖励ToM会提高欺骗。在具有不同优势的四个攻击者、六种防御者方法以及分布内和分布外（OOD）评估中，我们发现ToM和攻击者欺骗的收益密切相关，突出了信念建模是ToM-SB成功的关键驱动因素。结合ToM和欺骗奖励的AI双重间谍产生了最强的欺骗和ToM性能，在困难场景中优于具有ToM提示的Gemini3-Pro和GPT-5.4。我们还表明，ToM-SB和AI双重间谍可以扩展到更强大的攻击者，证明了对OOD设置的泛化以及我们任务的可升级性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在对抗性对话中，难以有效理解和操纵攻击者信念的问题。现有方法，如直接提示LLM进行推理，在面对具有部分先验知识的攻击者时，容易被攻破，导致隐私泄露等安全问题。

核心思路：论文的核心思路是训练一个AI双重间谍，通过模拟攻击者的信念和意图（心智理论），主动引导攻击者产生错误的信念，从而达到欺骗的目的。这种方法的核心在于将防御者置于一个主动的位置，而非被动防御。

技术框架：整体框架包含一个防御者（AI双重间谍）和一个攻击者，在一个共享的知识宇宙中进行对话。防御者的目标是欺骗攻击者，使其相信已经成功提取了敏感信息。框架包含以下主要模块：1) 对话环境：定义了共享的知识宇宙和对话规则；2) 攻击者模型：模拟不同能力的攻击者；3) 防御者模型：AI双重间谍，通过强化学习训练；4) 奖励函数：用于评估防御者的欺骗效果和心智理论建模能力。

关键创新：论文的关键创新在于提出了ToM-SB挑战，并设计了AI双重间谍的训练方法。该方法通过强化学习，同时优化欺骗奖励和心智理论奖励，实现了ToM和欺骗能力的双向提升。此外，论文还揭示了ToM和欺骗之间的涌现关系，即提升一方的能力可以促进另一方的提升。

关键设计：论文的关键设计包括：1) 奖励函数的设计：结合了欺骗成功率和心智理论建模的准确性；2) 强化学习算法的选择：使用了合适的强化学习算法来训练AI双重间谍；3) 攻击者模型的选择：使用了不同能力的攻击者来评估防御者的泛化能力；4) 模型结构：防御者模型采用Transformer架构，能够有效捕捉对话历史和上下文信息。

📊 实验亮点

实验结果表明，结合ToM和欺骗奖励的AI双重间谍在ToM-SB挑战中取得了显著的性能提升，优于Gemini3-Pro和GPT-5.4等强大模型。具体而言，在困难场景下，AI双重间谍的欺骗成功率显著高于基线模型，并且在心智理论建模方面也表现出更强的能力。此外，实验还验证了该方法在分布外（OOD）设置下的泛化能力。

🎯 应用场景

该研究成果可应用于提升对话系统的安全性，防止恶意用户通过对话窃取隐私信息。例如，在智能客服、聊天机器人等场景中，可以部署AI双重间谍来识别和防御潜在的攻击，保护用户数据安全。此外，该研究对于提升LLM的推理能力和心智理论建模能力具有重要意义。

📄 摘要（原文）

As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理