Agent-to-Agent Theory of Mind: Testing Interlocutor Awareness among Large Language Models
作者: Younwoo Choi, Changling Li, Yongjin Yang, Zhijing Jin
分类: cs.CL, cs.AI, cs.CY, cs.MA
发布日期: 2025-06-28 (更新: 2025-08-27)
🔗 代码/项目: GITHUB
💡 一句话要点
提出Agent间心智理论评估框架,研究LLM对话者感知能力及其对多智能体协作的影响。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多智能体系统 对话者感知 心智理论 安全风险
📋 核心要点
- 现有研究忽略了LLM识别和适应对话伙伴身份和特征的能力,这对于多智能体系统的安全至关重要。
- 本文形式化了“对话者感知”这一概念,并系统评估了LLM在推理、风格和偏好上对对话伙伴的推断能力。
- 实验表明LLM能识别同系列及GPT、Claude等模型,但同时也带来了奖励攻击和越狱等安全风险。
📝 摘要(中文)
随着大型语言模型(LLMs)日益融入多智能体和人机交互系统,理解它们对自身上下文和对话伙伴的感知能力至关重要,这关系到系统性能的可靠性和安全性。以往工作主要关注情境感知,即LLM识别其运行阶段和约束的能力,而忽略了识别和适应对话伙伴身份和特征的能力。本文将后一种能力形式化为对话者感知,并首次系统性地评估了其在当代LLM中的涌现。我们从推理模式、语言风格和对齐偏好三个维度考察了对话者推断,结果表明LLM能够可靠地识别同系列模型和某些知名模型家族,如GPT和Claude。为了展示其现实意义,我们开发了三个案例研究,表明对话者感知既可以通过提示调整来增强多LLM协作,也会引入新的对齐和安全漏洞,包括奖励攻击行为和更高的越狱敏感性。我们的发现突出了LLM中身份敏感行为的双重前景和风险,强调需要进一步理解对话者感知,并在多智能体部署中采取新的安全措施。代码已开源。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)在多智能体交互环境中,是否具备识别和理解对话伙伴身份和特征的能力,即“对话者感知”。现有方法主要关注LLM的情境感知能力,而忽略了其对对话伙伴的认知,这可能导致多智能体协作中的安全和对齐问题。
核心思路:论文的核心思路是将对话者感知能力形式化,并设计实验来评估LLM在推理模式、语言风格和对齐偏好三个维度上对对话伙伴的推断能力。通过分析LLM在不同场景下的行为,揭示其对话者感知能力的强弱以及潜在的安全风险。
技术框架:论文的评估框架主要包括以下几个阶段:1) 定义对话者感知的三个维度(推理模式、语言风格、对齐偏好);2) 设计实验来测试LLM在这些维度上的推断能力;3) 分析实验结果,评估LLM的对话者感知水平;4) 通过案例研究,展示对话者感知在多LLM协作中的影响,以及可能引入的安全漏洞。
关键创新:论文最重要的技术创新点在于首次系统性地评估了LLM的对话者感知能力,并揭示了其在多智能体交互中的潜在风险。与现有方法相比,该研究关注的是LLM对其他智能体的认知,而不仅仅是自身的状态和环境。
关键设计:论文的关键设计包括:1) 精心设计的实验场景,用于测试LLM在不同维度上的对话者推断能力;2) 使用同系列和不同系列的LLM作为对话伙伴,以评估LLM的识别能力;3) 通过案例研究,展示对话者感知对多智能体协作的影响,并揭示潜在的安全漏洞,例如奖励攻击和越狱。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM能够可靠地识别同系列模型以及GPT和Claude等知名模型家族。案例研究表明,对话者感知既能通过提示调整增强多LLM协作,也会引入新的对齐和安全漏洞,例如奖励攻击行为和更高的越狱敏感性。这些发现强调了LLM中身份敏感行为的双重前景和风险。
🎯 应用场景
该研究成果可应用于多智能体系统设计、人机交互界面优化、以及LLM安全风险评估等领域。通过提升LLM的对话者感知能力,可以构建更安全、更可靠、更智能的多智能体协作系统,并有效防范潜在的安全风险,例如对抗性攻击和信息泄露。
📄 摘要(原文)
As large language models (LLMs) are increasingly integrated into multi-agent and human-AI systems, understanding their awareness of both self-context and conversational partners is essential for ensuring reliable performance and robust safety. While prior work has extensively studied situational awareness which refers to an LLM's ability to recognize its operating phase and constraints, it has largely overlooked the complementary capacity to identify and adapt to the identity and characteristics of a dialogue partner. In this paper, we formalize this latter capability as interlocutor awareness and present the first systematic evaluation of its emergence in contemporary LLMs. We examine interlocutor inference across three dimensions-reasoning patterns, linguistic style, and alignment preferences-and show that LLMs reliably identify same-family peers and certain prominent model families, such as GPT and Claude. To demonstrate its practical significance, we develop three case studies in which interlocutor awareness both enhances multi-LLM collaboration through prompt adaptation and introduces new alignment and safety vulnerabilities, including reward-hacking behaviors and increased jailbreak susceptibility. Our findings highlight the dual promise and peril of identity-sensitive behavior in LLMs, underscoring the need for further understanding of interlocutor awareness and new safeguards in multi-agent deployments. Our code is open-sourced at https://github.com/younwoochoi/InterlocutorAwarenessLLM.