A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns
作者: Tianyi Men, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu, Jun Zhao
分类: cs.CL
发布日期: 2024-10-21 (更新: 2025-06-26)
备注: ACL 2025 Main
💡 一句话要点
提出TMCHT框架与ARCJ方法,评估并提升多智能体系统中对抗性攻击的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 越狱攻击 对抗性攻击 语言模型安全 信息传播 智能体记忆 TMCHT框架
📋 核心要点
- 现有研究在多智能体系统中,针对独立记忆的越狱攻击研究不足,真实场景下此类攻击更具威胁。
- 提出ARCJ方法,通过优化检索和复制后缀,增强中毒样本的检索性和传染性,从而提升攻击效果。
- 在TMCHT框架下,ARCJ方法在不同拓扑结构和规模的智能体系统中,显著提升了攻击成功率。
📝 摘要(中文)
随着大型语言模型的发展,它们被广泛用作各种领域的智能体。智能体的关键组成部分是记忆,它存储着重要信息,但也容易受到越狱攻击。现有研究主要集中在单智能体攻击和共享记忆攻击上。然而,真实场景通常涉及独立记忆。本文提出了“麻烦制造者在诚实小镇制造混乱”(TMCHT)任务,这是一个大规模、多智能体、多拓扑的基于文本的攻击评估框架。TMCHT涉及一个攻击者智能体试图误导整个智能体社会。我们确定了多智能体攻击中的两个主要挑战:(1)非完全图结构,(2)大规模系统。我们将这些挑战归因于一种我们称之为毒性消失的现象。为了解决这些问题,我们提出了一种对抗复制传染性越狱(ARCJ)方法,该方法优化检索后缀以使中毒样本更容易被检索,并优化复制后缀以使中毒样本具有传染能力。我们在TMCHT中证明了我们方法的优越性,在线拓扑、星拓扑和100个智能体设置中分别提高了23.51%、18.95%和52.93%。鼓励社区关注多智能体系统的安全性。
🔬 方法详解
问题定义:论文旨在解决多智能体系统中,针对具有独立记忆的智能体的越狱攻击问题。现有方法主要关注单智能体或共享记忆的攻击,忽略了真实场景下独立记忆带来的挑战,例如毒性消失现象,导致攻击效果不佳。
核心思路:论文的核心思路是通过增强中毒样本的检索性和传染性来提高攻击效果。具体来说,通过优化检索后缀,使得目标智能体更容易检索到中毒样本;通过优化复制后缀,使得中毒样本在智能体之间传播时,能够保持其毒性,从而实现更有效的攻击。
技术框架:TMCHT框架包含一个攻击者智能体和多个诚实智能体,它们构成一个社会网络。攻击者通过向诚实智能体注入中毒信息,试图使其产生错误行为。ARCJ方法则嵌入在攻击者的策略中,用于生成具有高检索性和传染性的中毒样本。整体流程包括:1) 攻击者生成包含优化后的检索和复制后缀的中毒样本;2) 攻击者将中毒样本注入到部分诚实智能体的记忆中;3) 诚实智能体之间进行信息交流,中毒信息通过复制后缀传播;4) 评估整个智能体社会的行为,判断攻击是否成功。
关键创新:ARCJ方法的关键创新在于同时优化检索后缀和复制后缀,从而解决了多智能体系统中毒性消失的问题。传统的攻击方法往往只关注中毒样本本身的内容,而忽略了其在智能体网络中的传播特性。ARCJ方法通过优化后缀,使得中毒样本更容易被检索和传播,从而提高了攻击的有效性。
关键设计:ARCJ方法的关键设计包括:1) 检索后缀的优化,目标是最大化中毒样本被目标智能体检索到的概率;2) 复制后缀的优化,目标是最大化中毒样本在智能体之间传播时保持毒性的概率。具体的优化方法可以使用梯度下降等技术,根据目标智能体的检索和复制机制进行调整。损失函数的设计需要考虑中毒样本的检索率、传播率以及对目标智能体行为的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ARCJ方法在TMCHT框架下显著提升了攻击成功率。在线拓扑结构中,ARCJ方法比基线方法提高了23.51%的攻击成功率;在星拓扑结构中,提高了18.95%;在100个智能体的设置中,提高了52.93%。这些结果表明,ARCJ方法能够有效解决多智能体系统中毒性消失的问题,并显著提升攻击效果。
🎯 应用场景
该研究成果可应用于评估和提升多智能体系统的安全性,例如在智能客服、自动驾驶、金融交易等领域。通过模拟各种攻击场景,可以发现系统中的安全漏洞,并开发相应的防御机制,从而提高系统的鲁棒性和可靠性。此外,该研究还可以用于开发更安全的智能体通信协议和记忆管理机制。
📄 摘要(原文)
With the development of large language models, they are widely used as agents in various fields. A key component of agents is memory, which stores vital information but is susceptible to jailbreak attacks. Existing research mainly focuses on single-agent attacks and shared memory attacks. However, real-world scenarios often involve independent memory. In this paper, we propose the Troublemaker Makes Chaos in Honest Town (TMCHT) task, a large-scale, multi-agent, multi-topology text-based attack evaluation framework. TMCHT involves one attacker agent attempting to mislead an entire society of agents. We identify two major challenges in multi-agent attacks: (1) Non-complete graph structure, (2) Large-scale systems. We attribute these challenges to a phenomenon we term toxicity disappearing. To address these issues, we propose an Adversarial Replication Contagious Jailbreak (ARCJ) method, which optimizes the retrieval suffix to make poisoned samples more easily retrieved and optimizes the replication suffix to make poisoned samples have contagious ability. We demonstrate the superiority of our approach in TMCHT, with 23.51%, 18.95%, and 52.93% improvements in line topology, star topology, and 100-agent settings. Encourage community attention to the security of multi-agent systems.