CORBA: Contagious Recursive Blocking Attacks on Multi-Agent Systems Based on Large Language Models

📄 arXiv: 2502.14529v1 📥 PDF

作者: Zhenhong Zhou, Zherui Li, Jie Zhang, Yuanhe Zhang, Kun Wang, Yang Liu, Qing Guo

分类: cs.CL, cs.AI

发布日期: 2025-02-20

🔗 代码/项目: GITHUB


💡 一句话要点

提出CORBA:一种针对基于大语言模型的多智能体系统的传染性递归阻塞攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大语言模型 安全攻击 阻塞攻击 传染性攻击 递归攻击 LLM安全

📋 核心要点

  1. 现有LLM-MASs的安全机制不足以防御针对智能体间交互的攻击,尤其是在面对看似无害的指令时。
  2. 提出Corba攻击,利用其传染性和递归性,通过看似良性的指令阻塞智能体间的通信,耗尽计算资源。
  3. 在AutoGen、Camel等多种LLM-MASs和不同拓扑结构上验证了Corba的有效性,并开源了代码。

📝 摘要(中文)

基于大语言模型的多智能体系统(LLM-MASs)已经展示了卓越的实际应用能力,能够有效地协作完成复杂的任务。尽管这些系统在设计时考虑了安全机制,例如通过对齐来拒绝有害指令,但其安全性在很大程度上仍未被探索。这种差距使得LLM-MASs容易受到有针对性的破坏。本文介绍了一种新颖且简单但非常有效的攻击,称为传染性递归阻塞攻击(Corba),它可以破坏LLM-MAS中智能体之间的交互。Corba利用了两个关键属性:它的传染性使其能够在任意网络拓扑中传播,而它的递归性则能够持续消耗计算资源。值得注意的是,这些阻塞攻击通常涉及看似良性的指令,这使得使用传统的对齐方法来缓解这些攻击变得特别具有挑战性。我们在两个广泛使用的LLM-MASs(即AutoGen和Camel)上,跨各种拓扑和商业模型评估了Corba。此外,我们在开放式交互LLM-MASs中进行了更广泛的实验,证明了Corba在复杂拓扑结构和开源模型中的有效性。

🔬 方法详解

问题定义:论文旨在解决LLM-MASs在面对恶意攻击时的脆弱性问题。现有的安全机制,如对齐方法,主要关注于拒绝有害指令,但对于利用看似无害的指令来破坏智能体间交互的攻击防御能力不足。这种攻击能够通过消耗计算资源或阻断关键信息传递来瘫痪整个系统。

核心思路:Corba攻击的核心思路是利用LLM-MASs中智能体之间的依赖关系,通过“传染”的方式将阻塞指令传播到整个系统。同时,利用“递归”的特性,使智能体持续执行阻塞操作,从而持续消耗计算资源,达到攻击的目的。这种攻击的巧妙之处在于,它使用看似无害的指令,绕过了传统的安全防御机制。

技术框架:Corba攻击的整体流程如下:1) 选择一个或多个目标智能体作为攻击的起始点。2) 向这些智能体注入包含阻塞指令的“良性”消息。3) 这些智能体在执行指令后,会将包含阻塞指令的消息传递给其他智能体,从而实现攻击的传播。4) 阻塞指令会使智能体陷入循环或执行无意义的操作,从而消耗计算资源或阻断正常的信息传递。整个过程无需复杂的控制机制,依赖于智能体自身的交互逻辑。

关键创新:Corba攻击的关键创新在于其“传染性”和“递归性”。传染性使得攻击能够快速扩散到整个系统,而递归性保证了攻击的持续性。与传统的攻击方法不同,Corba不需要直接控制智能体,而是通过巧妙设计的指令来诱导智能体自身执行攻击行为。这种攻击方式更隐蔽,更难以检测和防御。

关键设计:Corba攻击的关键设计在于阻塞指令的构造。这些指令需要满足以下条件:1) 能够被智能体正常解析和执行。2) 执行后会导致智能体陷入循环或执行无意义的操作。3) 能够被智能体传递给其他智能体。例如,可以构造一个指令,要求智能体不断地向自身发送消息,或者要求智能体执行一个计算量很大的操作。具体指令的设计需要根据LLM-MASs的具体实现进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Corba攻击能够有效地破坏AutoGen和Camel等LLM-MASs的正常运行。在不同的拓扑结构和商业模型上,Corba攻击都能够显著降低系统的性能,甚至导致系统瘫痪。更重要的是,Corba攻击能够绕过传统的安全防御机制,例如指令过滤和对齐方法,这表明LLM-MASs在安全方面仍然存在很大的改进空间。

🎯 应用场景

该研究揭示了LLM-MASs在安全方面存在的潜在风险,有助于提高人们对这类系统安全性的重视。研究成果可以应用于开发更强大的防御机制,例如,设计更智能的指令过滤系统,或者改进智能体之间的通信协议。此外,该研究还可以促进对LLM安全性的更深入研究,推动开发更安全、更可靠的LLM应用。

📄 摘要(原文)

Large Language Model-based Multi-Agent Systems (LLM-MASs) have demonstrated remarkable real-world capabilities, effectively collaborating to complete complex tasks. While these systems are designed with safety mechanisms, such as rejecting harmful instructions through alignment, their security remains largely unexplored. This gap leaves LLM-MASs vulnerable to targeted disruptions. In this paper, we introduce Contagious Recursive Blocking Attacks (Corba), a novel and simple yet highly effective attack that disrupts interactions between agents within an LLM-MAS. Corba leverages two key properties: its contagious nature allows it to propagate across arbitrary network topologies, while its recursive property enables sustained depletion of computational resources. Notably, these blocking attacks often involve seemingly benign instructions, making them particularly challenging to mitigate using conventional alignment methods. We evaluate Corba on two widely-used LLM-MASs, namely, AutoGen and Camel across various topologies and commercial models. Additionally, we conduct more extensive experiments in open-ended interactive LLM-MASs, demonstrating the effectiveness of Corba in complex topology structures and open-source models. Our code is available at: https://github.com/zhrli324/Corba.