UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning

📄 arXiv: 2501.15529v1 📥 PDF

作者: Oubo Ma, Linkang Du, Yang Dai, Chunyi Zhou, Qingming Li, Yuwen Pu, Shouling Ji

分类: cs.LG, cs.AI, cs.CR

发布日期: 2025-01-26

备注: 21 pages, 12 figures, 7 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出UNIDOOR框架,解决深度强化学习中动作级后门攻击的通用性问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 后门攻击 动作级后门 通用攻击框架 自适应奖励函数

📋 核心要点

  1. 现有动作级后门攻击依赖于固定的或条件翻转的后门奖励函数,缺乏跨任务和后门设计的通用性,导致攻击效果不稳定。
  2. UNIDOOR框架通过性能监控自适应地探索后门奖励函数,无需专家知识或网格搜索,从而实现更通用的攻击。
  3. 实验证明UNIDOOR显著提升了动作级后门攻击的性能,并在多种场景下展现了其通用性和隐蔽性。

📝 摘要(中文)

深度强化学习(DRL)被广泛应用于安全攸关的决策场景。然而,DRL容易受到后门攻击,特别是动作级后门,它通过精确的操作和灵活的激活构成重大威胁,可能导致车辆碰撞或无人机坠毁等后果。动作级后门的关键区别在于利用后门奖励函数将触发器与目标动作相关联。然而,现有的研究通常依赖于具有固定值或条件翻转的后门奖励函数,这缺乏跨不同DRL任务和后门设计的通用性,导致实践中的波动甚至失败。本文提出了第一个通用的动作级后门攻击框架,称为UNIDOOR,它能够通过性能监控自适应地探索后门奖励函数,从而消除了对专家知识和网格搜索的依赖。我们强调,动作篡改是连续动作场景中动作级后门攻击的关键组成部分,因为它解决了由低频目标动作引起的攻击失败问题。广泛的评估表明,UNIDOOR显著提高了动作级后门攻击的性能,展示了其在各种攻击场景中的通用性,包括单/多智能体、单/多后门、离散/连续动作空间以及稀疏/密集奖励信号。此外,包含状态分布、神经元激活和动画的可视化结果证明了UNIDOOR的隐蔽性。UNIDOOR的源代码可在https://github.com/maoubo/UNIDOOR找到。

🔬 方法详解

问题定义:现有的动作级后门攻击方法在深度强化学习中存在通用性问题。它们依赖于人工设计的、具有固定值或条件翻转的后门奖励函数,这使得攻击策略难以适应不同的DRL任务、环境和后门设计。当目标动作出现频率较低时,攻击效果会显著下降,甚至失效。

核心思路:UNIDOOR的核心思路是通过自适应地探索后门奖励函数来提高攻击的通用性。它不再依赖于预定义的奖励函数,而是通过监控攻击性能,动态调整奖励函数,从而更好地将触发器与目标动作关联起来。此外,UNIDOOR还引入了动作篡改机制,以解决目标动作频率低的问题。

技术框架:UNIDOOR框架主要包含以下几个模块:1) 触发器生成模块:负责生成用于激活后门的触发器。2) 后门奖励函数探索模块:通过性能监控,自适应地调整后门奖励函数,以最大化攻击效果。3) 动作篡改模块:在连续动作空间中,对智能体的动作进行微调,以增加目标动作的执行频率。4) 策略学习模块:利用受污染的训练数据训练智能体,使其在触发器出现时执行目标动作。整体流程是,在训练过程中,UNIDOOR会周期性地评估攻击性能,并根据评估结果调整后门奖励函数和动作篡改策略。

关键创新:UNIDOOR最重要的技术创新点在于其自适应的后门奖励函数探索机制。与现有方法相比,UNIDOOR不再依赖于人工设计的奖励函数,而是通过性能监控和动态调整,自动学习最优的奖励函数。这种自适应性使得UNIDOOR能够更好地适应不同的DRL任务和后门设计,从而提高攻击的通用性。

关键设计:UNIDOOR的关键设计包括:1) 性能监控指标:用于评估攻击效果,例如攻击成功率、任务完成率等。2) 奖励函数调整策略:根据性能监控指标,动态调整后门奖励函数的参数,例如奖励值的大小、触发条件等。3) 动作篡改策略:在连续动作空间中,通过添加噪声或修改动作向量,增加目标动作的执行频率。4) 损失函数:除了标准的强化学习损失函数外,还引入了后门攻击损失函数,用于鼓励智能体在触发器出现时执行目标动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UNIDOOR在多种DRL任务和攻击场景下均显著优于现有方法。例如,在某些任务中,UNIDOOR的攻击成功率比基线方法提高了20%以上。此外,可视化结果表明,UNIDOOR具有良好的隐蔽性,难以被检测到。该研究还验证了UNIDOOR在单/多智能体、单/多后门、离散/连续动作空间以及稀疏/密集奖励信号等不同场景下的通用性。

🎯 应用场景

UNIDOOR的研究成果可应用于评估和增强深度强化学习系统的安全性。通过模拟各种后门攻击场景,可以发现系统中的潜在漏洞,并开发相应的防御机制。该研究对于保障自动驾驶、机器人控制、金融交易等安全攸关领域的DRL应用至关重要,有助于提升系统的鲁棒性和可靠性。

📄 摘要(原文)

Deep reinforcement learning (DRL) is widely applied to safety-critical decision-making scenarios. However, DRL is vulnerable to backdoor attacks, especially action-level backdoors, which pose significant threats through precise manipulation and flexible activation, risking outcomes like vehicle collisions or drone crashes. The key distinction of action-level backdoors lies in the utilization of the backdoor reward function to associate triggers with target actions. Nevertheless, existing studies typically rely on backdoor reward functions with fixed values or conditional flipping, which lack universality across diverse DRL tasks and backdoor designs, resulting in fluctuations or even failure in practice. This paper proposes the first universal action-level backdoor attack framework, called UNIDOOR, which enables adaptive exploration of backdoor reward functions through performance monitoring, eliminating the reliance on expert knowledge and grid search. We highlight that action tampering serves as a crucial component of action-level backdoor attacks in continuous action scenarios, as it addresses attack failures caused by low-frequency target actions. Extensive evaluations demonstrate that UNIDOOR significantly enhances the attack performance of action-level backdoors, showcasing its universality across diverse attack scenarios, including single/multiple agents, single/multiple backdoors, discrete/continuous action spaces, and sparse/dense reward signals. Furthermore, visualization results encompassing state distribution, neuron activation, and animations demonstrate the stealthiness of UNIDOOR. The source code of UNIDOOR can be found at https://github.com/maoubo/UNIDOOR.