BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems

📄 arXiv: 2501.01593v2 📥 PDF

作者: Jing Fang, Saihao Yan, Xueyu Yin, Yinbo Yu, Chunwei Tian, Jiajia Liu

分类: cs.AI, cs.CR, cs.LG

发布日期: 2025-01-03 (更新: 2025-07-18)

备注: 12. arXiv admin note: substantial text overlap with arXiv:2409.07775


💡 一句话要点

提出BLAST:一种针对合作多智能体深度强化学习系统的隐蔽后门杠杆攻击

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 多智能体强化学习 后门攻击 杠杆攻击 对抗时空行为 隐蔽性 奖励函数篡改 安全漏洞 防御机制

📋 核心要点

  1. 现有后门攻击隐蔽性不足,触发模式易被察觉,且常需额外网络训练或激活后门,或需对所有智能体进行后门攻击。
  2. BLAST通过在单个智能体中嵌入后门,并利用对抗时空行为模式作为触发器,实现对整个多智能体团队的杠杆攻击。
  3. 实验表明,BLAST在保证隐蔽性的同时,能有效攻击多种c-MADRL算法,并在两种防御机制下仍保持高攻击成功率。

📝 摘要(中文)

本文提出了一种针对合作多智能体深度强化学习(c-MADRL)的后门杠杆攻击方法,名为BLAST。该方法通过在单个智能体中嵌入后门,从而攻击整个多智能体团队。BLAST使用对抗时空行为模式作为后门触发器,而非手动注入的固定视觉模式或瞬时状态,并控制执行恶意行为的周期,从而保证了隐蔽性和实用性。此外,BLAST通过单方面引导,篡改后门智能体的原始奖励函数来注入后门,从而实现“杠杆攻击效应”,即通过单个后门智能体撬动整个多智能体系统。在SMAC和Pursuit两个流行的c-MADRL环境中,针对三种经典c-MADRL算法(VDN、QMIX和MAPPO)以及两种现有防御机制进行了评估。实验结果表明,BLAST可以在保持较低的clean performance variance rate的同时,实现较高的攻击成功率。

🔬 方法详解

问题定义:现有的c-MADRL后门攻击存在隐蔽性差、需要额外网络支持或需要对所有智能体进行攻击等问题。这些问题限制了后门攻击的实际应用,并且容易被防御机制检测到。因此,需要一种更隐蔽、更高效的后门攻击方法,能够以较低的成本影响整个多智能体系统。

核心思路:BLAST的核心思路是通过在单个智能体中嵌入后门,利用该智能体的行为影响整个团队,从而实现杠杆攻击效应。通过设计对抗时空行为模式作为触发器,并篡改后门智能体的奖励函数,使得该智能体在特定条件下执行恶意行为,从而影响整个团队的决策。

技术框架:BLAST攻击框架主要包含以下几个阶段:1) 选择一个智能体作为后门智能体;2) 设计对抗时空行为模式作为后门触发器;3) 修改后门智能体的奖励函数,使其在触发后门时执行恶意行为;4) 利用修改后的奖励函数训练后门智能体;5) 将后门智能体部署到多智能体系统中。整个过程无需额外的网络结构,直接修改智能体的奖励函数。

关键创新:BLAST的关键创新在于:1) 提出了对抗时空行为模式作为后门触发器,提高了隐蔽性;2) 通过修改单个智能体的奖励函数,实现了对整个多智能体系统的杠杆攻击;3) 无需额外的网络结构,降低了攻击成本。

关键设计:对抗时空行为模式的设计需要考虑环境的特点,例如在SMAC环境中,可以设计为特定的单位移动序列。奖励函数的修改需要保证后门智能体在触发后门时执行恶意行为,例如攻击特定的目标或阻碍团队完成任务。具体而言,可以通过添加或修改奖励项来实现,例如,当后门触发时,给予后门智能体一个负奖励,鼓励其攻击友方单位。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BLAST在SMAC和Pursuit环境中,针对VDN、QMIX和MAPPO三种算法,均能实现较高的攻击成功率,同时保持较低的clean performance variance rate。即使在存在防御机制的情况下,BLAST仍然能够有效地攻击多智能体系统,证明了其隐蔽性和有效性。具体数据未知,但结论是攻击成功率高,对正常性能影响小。

🎯 应用场景

该研究成果可应用于评估和增强多智能体系统的安全性,尤其是在需要高度协作的场景中,如自动驾驶车队、无人机集群、机器人协同作业等。通过模拟和分析后门攻击,可以发现系统中的潜在漏洞,并开发相应的防御机制,提高系统的鲁棒性和可靠性。此外,该研究也为后门攻击的检测和防御提供了新的思路。

📄 摘要(原文)

Recent studies have shown that cooperative multi-agent deep reinforcement learning (c-MADRL) is under the threat of backdoor attacks. Once a backdoor trigger is observed, it will perform malicious actions leading to failures or malicious goals. However, existing backdoor attacks suffer from several issues, e.g., instant trigger patterns lack stealthiness, the backdoor is trained or activated by an additional network, or all agents are backdoored. To this end, in this paper, we propose a novel backdoor leverage attack against c-MADRL, BLAST, which attacks the entire multi-agent team by embedding the backdoor only in a single agent. Firstly, we introduce adversary spatiotemporal behavior patterns as the backdoor trigger rather than manual-injected fixed visual patterns or instant status and control the period to perform malicious actions. This method can guarantee the stealthiness and practicality of BLAST. Secondly, we hack the original reward function of the backdoor agent via unilateral guidance to inject BLAST, so as to achieve the \textit{leverage attack effect} that can pry open the entire multi-agent system via a single backdoor agent. We evaluate our BLAST against 3 classic c-MADRL algorithms (VDN, QMIX, and MAPPO) in 2 popular c-MADRL environments (SMAC and Pursuit), and 2 existing defense mechanisms. The experimental results demonstrate that BLAST can achieve a high attack success rate while maintaining a low clean performance variance rate.