ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations

作者: Amr Gomaa, Ahmed Salem, Sahar Abdelnabi

分类: cs.CR, cs.CL, cs.CY

发布日期: 2025-11-07

💡 一句话要点

ConVerse：评估Agent间对话中上下文安全性的基准测试

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 多Agent系统 安全性评估 隐私保护 基准测试 上下文安全

📋 核心要点

现有Agent交互缺乏对隐私和安全风险的全面评估，尤其是在多轮对话中，恶意请求可能隐藏在正常交流中。
ConVerse通过构建包含隐私和安全攻击的动态基准，模拟真实场景下的Agent间对话，评估模型在复杂交互中的安全性。
实验表明，即使是最先进的模型在ConVerse基准测试中也存在显著的隐私和安全漏洞，突显了多Agent安全研究的重要性。

📝 摘要（中文）

随着语言模型发展为代表用户行动和交流的自主Agent，确保多Agent生态系统中的安全性成为核心挑战。个人助理与外部服务提供商之间的交互暴露了效用和保护之间的核心矛盾：有效的协作需要信息共享，但每次交换都会产生新的攻击面。我们引入ConVerse，这是一个动态基准，用于评估Agent间交互中的隐私和安全风险。ConVerse涵盖三个实际领域（旅行、房地产、保险），包含12个用户角色和超过864个上下文相关的攻击（611个隐私攻击，253个安全攻击）。与之前的单Agent设置不同，它模拟了自主的、多轮的Agent间对话，其中恶意请求嵌入在看似合理的对话中。隐私通过三层分类法进行测试，评估抽象质量，而安全攻击则针对工具使用和偏好操纵。对七个最先进模型的评估显示了持续存在的漏洞；隐私攻击在高达88%的情况下成功，安全漏洞在高达60%的情况下成功，并且更强大的模型泄漏更多。通过在交互式多Agent上下文中统一隐私和安全，ConVerse将安全性重新定义为通信的涌现属性。

🔬 方法详解

问题定义：论文旨在解决多Agent对话场景下的隐私和安全问题。现有方法主要关注单Agent环境，无法有效评估多轮交互中上下文信息泄露和恶意攻击的风险。痛点在于缺乏一个能够模拟真实场景、包含多样化攻击方式的基准测试，以全面评估Agent的安全性。

核心思路：论文的核心思路是构建一个动态基准测试ConVerse，模拟Agent间的多轮对话，并在对话中嵌入各种隐私和安全攻击。通过评估Agent在这些攻击下的表现，来衡量其安全性和鲁棒性。这种方法能够更真实地反映Agent在实际应用中可能面临的风险。

技术框架：ConVerse基准测试包含以下主要组成部分：1) 三个实际领域（旅行、房地产、保险）；2) 12个用户角色，模拟不同的用户需求和偏好；3) 864个上下文相关的攻击，包括611个隐私攻击和253个安全攻击。隐私攻击通过三层分类法评估抽象质量，安全攻击则针对工具使用和偏好操纵。整个流程模拟Agent间的对话，并在对话中插入恶意请求，然后评估Agent的反应。

关键创新：ConVerse的关键创新在于：1) 首次将隐私和安全问题统一在交互式多Agent上下文中进行评估；2) 构建了一个动态的、上下文相关的攻击集合，能够更真实地模拟实际应用中的风险；3) 提出了一个三层分类法来评估隐私攻击中的抽象质量。与现有方法相比，ConVerse更全面、更真实地评估了Agent的安全性。

关键设计：ConVerse的关键设计包括：1) 攻击的上下文相关性，确保攻击能够自然地融入到对话中；2) 三层隐私分类法，用于评估Agent对敏感信息的抽象程度；3) 多样化的安全攻击，包括工具滥用和偏好操纵。论文没有详细说明具体的参数设置、损失函数或网络结构，因为ConVerse主要是一个基准测试，而不是一个特定的模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的语言模型在ConVerse基准测试中也存在显著的隐私和安全漏洞。隐私攻击成功率高达88%，安全漏洞成功率高达60%。更强大的模型反而更容易泄露信息，这表明现有模型在多Agent安全方面仍有很大的提升空间。ConVerse提供了一个有价值的平台，用于评估和改进Agent系统的安全性。

🎯 应用场景

ConVerse的研究成果可应用于评估和提升各种多Agent系统的安全性，例如智能助理、客户服务机器人和供应链管理系统。通过使用ConVerse进行测试，开发者可以识别并修复Agent系统中的安全漏洞，从而保护用户隐私和系统安全。未来，ConVerse可以扩展到更多领域，并用于开发更安全的Agent交互协议。

📄 摘要（原文）

As language models evolve into autonomous agents that act and communicate on behalf of users, ensuring safety in multi-agent ecosystems becomes a central challenge. Interactions between personal assistants and external service providers expose a core tension between utility and protection: effective collaboration requires information sharing, yet every exchange creates new attack surfaces. We introduce ConVerse, a dynamic benchmark for evaluating privacy and security risks in agent-agent interactions. ConVerse spans three practical domains (travel, real estate, insurance) with 12 user personas and over 864 contextually grounded attacks (611 privacy, 253 security). Unlike prior single-agent settings, it models autonomous, multi-turn agent-to-agent conversations where malicious requests are embedded within plausible discourse. Privacy is tested through a three-tier taxonomy assessing abstraction quality, while security attacks target tool use and preference manipulation. Evaluating seven state-of-the-art models reveals persistent vulnerabilities; privacy attacks succeed in up to 88% of cases and security breaches in up to 60%, with stronger models leaking more. By unifying privacy and security within interactive multi-agent contexts, ConVerse reframes safety as an emergent property of communication.

ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理