Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities

📄 arXiv: 2407.07791v2 📥 PDF

作者: Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao, Yulong Wang, Lifeng Liu, Jian Xie, Zhuosheng Zhang, Gongshen Liu

分类: cs.CL

发布日期: 2024-07-10 (更新: 2024-07-23)

备注: 18 Pages, working in progress


💡 一句话要点

提出针对LLM多智能体系统中操纵知识传播的两阶段攻击方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM多智能体系统 知识操纵 安全攻击 信息传播 威胁模型

📋 核心要点

  1. 现有研究对LLM多智能体系统的安全性关注不足,尤其是在操纵知识传播方面存在挑战。
  2. 提出一种两阶段攻击方法,通过说服力注入和操纵知识注入,诱导LLM智能体传播虚假和有害信息。
  3. 实验证明该方法能有效传播操纵知识,且即使在检索增强生成框架下,操纵信息依然具有持久性。

📝 摘要(中文)

大型语言模型(LLM)在多智能体系统中的快速应用凸显了其在协同问题解决和自主协商等方面的强大能力。然而,这些基于LLM的多智能体系统的安全性影响尚未得到充分研究,特别是关于操纵知识的传播。本文通过构建详细的威胁模型和模拟环境来研究这一关键问题,该环境模拟了可信平台中的真实多智能体部署。随后,我们提出了一种新颖的两阶段攻击方法,包括说服力注入和操纵知识注入,以系统地探索操纵知识(即,反事实和有毒知识)传播的可能性,而无需显式的提示操纵。我们的方法利用了LLM在处理世界知识方面的固有漏洞,攻击者可以利用这些漏洞在不知不觉中传播捏造的信息。通过大量的实验,我们证明了我们的攻击方法可以成功地诱导基于LLM的智能体传播反事实和有毒知识,而不会降低其在智能体通信期间的基本能力。此外,我们表明,这些操纵可以通过流行的检索增强生成框架持续存在,在这些框架中,几个良性智能体存储和检索操纵的聊天历史以供将来交互。这种持久性表明,即使在交互结束后,良性智能体也可能继续受到操纵知识的影响。我们的研究结果揭示了基于LLM的多智能体系统中的重大安全风险,强调迫切需要针对操纵知识传播的强大防御,例如引入“守护”智能体和先进的事实核查工具。

🔬 方法详解

问题定义:论文旨在解决LLM多智能体系统中,恶意攻击者如何利用LLM的固有弱点,在没有显式提示操纵的情况下,传播虚假或有害信息的问题。现有方法难以有效评估和防御这种隐蔽的知识操纵攻击。

核心思路:核心思路是通过两阶段攻击,首先利用“说服力注入”使目标智能体更容易接受后续的操纵信息,然后通过“操纵知识注入”将虚假或有害信息潜移默化地植入智能体的知识库中。这种方法模拟了现实世界中信息操纵的复杂过程。

技术框架:整体框架包含以下几个关键模块:1) 目标智能体选择:选择易受攻击的智能体作为攻击目标。2) 说服力注入:通过精心设计的对话,增强目标智能体对攻击者信息的信任度。3) 操纵知识注入:将虚假或有害信息融入到与目标智能体的对话中,使其逐渐接受并传播这些信息。4) 知识传播评估:监控操纵知识在智能体社区中的传播范围和影响。

关键创新:该方法的关键创新在于其两阶段攻击策略,即先通过“说服力注入”降低目标智能体的防御心理,再进行“操纵知识注入”。这种策略比直接注入操纵信息更有效,也更贴近现实世界的攻击场景。此外,该方法还考虑了检索增强生成框架下的知识持久性问题。

关键设计:在“说服力注入”阶段,设计了多种说服策略,例如使用权威性语言、引用可信来源等。在“操纵知识注入”阶段,采用了多种信息伪造技术,例如修改事实、捏造数据等。实验中,使用了多种LLM作为智能体,并评估了不同LLM对该攻击方法的抵抗能力。具体参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该攻击方法能够成功诱导LLM智能体传播反事实和有毒知识,且不会显著降低其基本能力。此外,实验还证明,即使在使用了检索增强生成框架的情况下,被操纵的知识仍然具有持久性,这表明该攻击方法具有很强的威胁性。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于评估和提升LLM多智能体系统的安全性,例如开发更强大的防御机制,包括“守护”智能体和先进的事实核查工具。此外,该研究也为构建更安全、可靠的LLM应用提供了理论指导,有助于防止虚假信息和有害内容在智能体社区中的传播。

📄 摘要(原文)

The rapid adoption of large language models (LLMs) in multi-agent systems has highlighted their impressive capabilities in various applications, such as collaborative problem-solving and autonomous negotiation. However, the security implications of these LLM-based multi-agent systems have not been thoroughly investigated, particularly concerning the spread of manipulated knowledge. In this paper, we investigate this critical issue by constructing a detailed threat model and a comprehensive simulation environment that mirrors real-world multi-agent deployments in a trusted platform. Subsequently, we propose a novel two-stage attack method involving Persuasiveness Injection and Manipulated Knowledge Injection to systematically explore the potential for manipulated knowledge (i.e., counterfactual and toxic knowledge) spread without explicit prompt manipulation. Our method leverages the inherent vulnerabilities of LLMs in handling world knowledge, which can be exploited by attackers to unconsciously spread fabricated information. Through extensive experiments, we demonstrate that our attack method can successfully induce LLM-based agents to spread both counterfactual and toxic knowledge without degrading their foundational capabilities during agent communication. Furthermore, we show that these manipulations can persist through popular retrieval-augmented generation frameworks, where several benign agents store and retrieve manipulated chat histories for future interactions. This persistence indicates that even after the interaction has ended, the benign agents may continue to be influenced by manipulated knowledge. Our findings reveal significant security risks in LLM-based multi-agent systems, emphasizing the imperative need for robust defenses against manipulated knowledge spread, such as introducing ``guardian'' agents and advanced fact-checking tools.