SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents
作者: Ethan Rathbun, Christopher Amato, Alina Oprea
分类: cs.LG, cs.CR
发布日期: 2024-05-30 (更新: 2024-10-21)
备注: 23 pages, 14 figures, NeurIPS
💡 一句话要点
提出SleeperNets,一种针对强化学习代理的通用后门投毒攻击方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 后门攻击 投毒攻击 对抗性攻击 安全 鲁棒性 奖励塑造
📋 核心要点
- 现有后门攻击方法在强化学习中存在泛化能力不足的问题,难以跨领域和MDP有效。
- 论文提出一种新的投毒攻击框架,将攻击目标与寻找最优策略相结合,确保攻击的成功率。
- 实验证明,SleeperNets在多个环境中显著提高了攻击成功率,同时保持了正常的性能表现。
📝 摘要(中文)
本文研究了针对强化学习(RL)代理的一种隐蔽的训练时攻击——后门投毒。攻击者的目标是在推理时,当代理观察到预先设定的触发器时,可靠地诱导其采取特定行动。论文揭示了现有工作的理论局限性,证明了它们无法跨领域和MDP泛化。为此,论文提出了一个新的投毒攻击框架,将攻击者的目标与寻找最优策略的目标联系起来,从而保证了攻击在极限情况下的成功。基于理论分析,论文开发了“SleeperNets”作为一种通用后门攻击,它利用了一种新提出的威胁模型,并利用了动态奖励投毒技术。在跨多个领域的6个环境中评估了该攻击,结果表明,与现有方法相比,攻击成功率显著提高,同时保持了良性情节回报。
🔬 方法详解
问题定义:论文旨在解决强化学习代理在训练过程中遭受后门投毒攻击的问题。现有的后门攻击方法通常难以泛化到不同的环境和MDP,攻击效果不稳定,并且容易被检测到。这些方法往往依赖于特定的环境特征,缺乏通用性。
核心思路:论文的核心思路是将后门攻击的目标与强化学习代理寻找最优策略的目标联系起来。通过精心设计的奖励投毒机制,引导代理在特定触发器出现时采取攻击者期望的行动,同时保证在正常情况下代理能够学习到良好的策略。这种方法旨在提高攻击的隐蔽性和泛化能力。
技术框架:SleeperNets的整体框架包括以下几个主要阶段:1) 触发器选择:选择一个在环境中容易插入且不影响正常行为的触发器。2) 奖励函数修改:设计一个动态奖励函数,当触发器出现时,给予代理采取目标行动的奖励;否则,保持正常的奖励。3) 策略训练:使用修改后的奖励函数训练强化学习代理。4) 攻击评估:在测试环境中评估攻击的成功率和对正常性能的影响。
关键创新:SleeperNets的关键创新在于其动态奖励投毒机制。与传统的静态奖励投毒方法不同,SleeperNets根据触发器的出现动态地调整奖励函数,使得代理能够学习到在特定情况下采取目标行动的策略,同时避免影响正常情况下的策略学习。这种动态调整提高了攻击的隐蔽性和泛化能力。
关键设计:SleeperNets的关键设计包括:1) 触发器的选择:选择与环境状态无关的触发器,例如在图像中添加一个小的噪声模式。2) 奖励函数的动态调整:使用一个基于触发器状态的函数来调整奖励函数,例如,当触发器出现时,给予采取目标行动的代理一个大的正奖励,否则给予一个小的负奖励。3) 训练过程的优化:使用合适的强化学习算法(例如,DQN或PPO)来训练代理,并调整超参数以获得最佳的攻击效果。
🖼️ 关键图片
📊 实验亮点
SleeperNets在6个不同的强化学习环境中进行了评估,包括Atari游戏和MuJoCo连续控制任务。实验结果表明,SleeperNets在攻击成功率方面显著优于现有的后门攻击方法,同时保持了良好的良性情节回报。例如,在某些环境中,SleeperNets的攻击成功率达到了90%以上,而现有方法的攻击成功率仅为50%左右。
🎯 应用场景
该研究成果可应用于评估和增强强化学习系统在安全关键领域的鲁棒性,例如自动驾驶、机器人控制和金融交易。通过了解和防御后门攻击,可以提高这些系统在恶意环境中的可靠性和安全性,避免潜在的灾难性后果。未来的研究可以探索更复杂的后门攻击方法和更有效的防御机制。
📄 摘要(原文)
Reinforcement learning (RL) is an actively growing field that is seeing increased usage in real-world, safety-critical applications -- making it paramount to ensure the robustness of RL algorithms against adversarial attacks. In this work we explore a particularly stealthy form of training-time attacks against RL -- backdoor poisoning. Here the adversary intercepts the training of an RL agent with the goal of reliably inducing a particular action when the agent observes a pre-determined trigger at inference time. We uncover theoretical limitations of prior work by proving their inability to generalize across domains and MDPs. Motivated by this, we formulate a novel poisoning attack framework which interlinks the adversary's objectives with those of finding an optimal policy -- guaranteeing attack success in the limit. Using insights from our theoretical analysis we develop ``SleeperNets'' as a universal backdoor attack which exploits a newly proposed threat model and leverages dynamic reward poisoning techniques. We evaluate our attack in 6 environments spanning multiple domains and demonstrate significant improvements in attack success over existing methods, while preserving benign episodic return.