Can an Individual Manipulate the Collective Decisions of Multi-Agents?

📄 arXiv: 2509.16494v2 📥 PDF

作者: Fengyuan Liu, Rui Zhao, Shuo Chen, Guohao Li, Philip Torr, Lei Han, Jindong Gu

分类: cs.CL, cs.AI

发布日期: 2025-09-20 (更新: 2025-10-15)


💡 一句话要点

M-Spoiler:针对多智能体系统集体决策的个体对抗攻击框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 对抗攻击 集体决策 大型语言模型 信息安全

📋 核心要点

  1. 多智能体系统决策能力强大,但现有方法难以应对攻击者仅知晓部分智能体信息的情况。
  2. M-Spoiler框架模拟智能体交互生成对抗样本,操纵目标智能体以误导多智能体系统的集体决策。
  3. 实验证明M-Spoiler框架的有效性,并验证了了解单个智能体信息所带来的安全风险。

📝 摘要(中文)

个体大型语言模型(LLMs)在医疗、法律等领域展现了卓越能力。协同多智能体系统通过协作,在决策和推理方面也表现出更强的能力。然而,考虑到个体LLM的脆弱性以及访问多智能体系统中所有智能体的难度,一个关键问题是:如果攻击者只了解一个智能体,他们是否仍能生成对抗样本来误导集体决策?为了研究这个问题,我们将其建模为一个不完全信息博弈,攻击者只知道一个目标智能体,而不知道系统中其他智能体的信息。基于此,我们提出了M-Spoiler框架,该框架模拟多智能体系统中的智能体交互,以生成对抗样本。这些样本用于操纵目标系统中的目标智能体,从而误导系统的协同决策过程。具体来说,M-Spoiler引入了一个顽固智能体,通过模拟目标系统中智能体的潜在顽固响应,积极帮助优化对抗样本,从而提高生成的对抗样本在误导系统方面的有效性。通过在各种任务中进行的大量实验,我们的发现证实了了解多智能体系统中单个智能体所带来的风险,并证明了我们框架的有效性。我们还探索了几种防御机制,结果表明,我们提出的攻击框架比基线更有效,这突显了进一步研究防御策略的必要性。

🔬 方法详解

问题定义:论文旨在解决多智能体系统中,攻击者仅了解单个智能体信息的情况下,如何生成对抗样本以误导整个系统的集体决策的问题。现有方法通常假设攻击者可以访问或影响所有智能体,这在实际场景中往往是不现实的。因此,如何在信息不完全的情况下进行有效的对抗攻击是一个挑战。

核心思路:论文的核心思路是模拟多智能体系统内部的交互过程,通过引入一个“顽固智能体”来辅助生成更有效的对抗样本。该顽固智能体模拟了目标系统中其他智能体的潜在响应,从而使生成的对抗样本能够更好地适应目标系统的行为,提高攻击的成功率。

技术框架:M-Spoiler框架主要包含以下几个模块:1) 目标智能体选择:确定要攻击的目标智能体。2) 智能体交互模拟:模拟多智能体系统内部的交互过程,包括目标智能体与其他智能体的通信和决策过程。3) 顽固智能体引入:引入一个顽固智能体,模拟目标系统中其他智能体的潜在顽固响应。4) 对抗样本生成:利用模拟的交互过程和顽固智能体的反馈,生成能够误导目标智能体的对抗样本。5) 攻击执行:将生成的对抗样本注入到目标智能体中,观察其对系统集体决策的影响。

关键创新:M-Spoiler的关键创新在于引入了“顽固智能体”的概念,并将其用于对抗样本的生成过程中。通过模拟目标系统中其他智能体的潜在响应,M-Spoiler能够生成更具针对性和鲁棒性的对抗样本,从而提高攻击的成功率。与现有方法相比,M-Spoiler不需要访问或影响所有智能体,只需要了解单个目标智能体的信息即可进行有效的攻击。

关键设计:M-Spoiler的关键设计包括:1) 顽固智能体的行为模拟:如何有效地模拟目标系统中其他智能体的潜在顽固响应是一个关键问题。论文可能采用了基于规则、基于模型或基于数据驱动的方法来模拟顽固智能体的行为。2) 对抗样本的优化目标:对抗样本的优化目标是使目标智能体产生错误的决策,从而误导整个系统的集体决策。论文可能采用了基于梯度的方法或基于进化算法的方法来优化对抗样本。3) 损失函数设计:损失函数的设计需要考虑目标智能体的决策过程以及系统整体的决策目标。论文可能采用了交叉熵损失、hinge损失或其他自定义的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,M-Spoiler框架在各种任务中均能有效地误导多智能体系统的集体决策。与基线方法相比,M-Spoiler在攻击成功率方面取得了显著提升,即使在采用防御机制的情况下,M-Spoiler仍然表现出更强的攻击能力。这些结果验证了了解单个智能体信息所带来的安全风险,并突显了进一步研究防御策略的必要性。

🎯 应用场景

该研究成果可应用于评估和提升多智能体系统的安全性,尤其是在涉及关键决策的场景,如自动驾驶、金融交易和军事指挥等。通过模拟对抗攻击,可以发现系统中的潜在漏洞,并开发更有效的防御机制,从而提高系统的鲁棒性和可靠性。未来的研究可以探索更复杂的攻击策略和更有效的防御方法。

📄 摘要(原文)

Individual Large Language Models (LLMs) have demonstrated significant capabilities across various domains, such as healthcare and law. Recent studies also show that coordinated multi-agent systems exhibit enhanced decision-making and reasoning abilities through collaboration. However, due to the vulnerabilities of individual LLMs and the difficulty of accessing all agents in a multi-agent system, a key question arises: If attackers only know one agent, could they still generate adversarial samples capable of misleading the collective decision? To explore this question, we formulate it as a game with incomplete information, where attackers know only one target agent and lack knowledge of the other agents in the system. With this formulation, we propose M-Spoiler, a framework that simulates agent interactions within a multi-agent system to generate adversarial samples. These samples are then used to manipulate the target agent in the target system, misleading the system's collaborative decision-making process. More specifically, M-Spoiler introduces a stubborn agent that actively aids in optimizing adversarial samples by simulating potential stubborn responses from agents in the target system. This enhances the effectiveness of the generated adversarial samples in misleading the system. Through extensive experiments across various tasks, our findings confirm the risks posed by the knowledge of an individual agent in multi-agent systems and demonstrate the effectiveness of our framework. We also explore several defense mechanisms, showing that our proposed attack framework remains more potent than baselines, underscoring the need for further research into defensive strategies.