CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning

作者: Yuanjie Zhao, Junnan Qiu, Yue Ding, Jie Li

分类: cs.LG

发布日期: 2026-01-15

💡 一句话要点

提出CS-GBA，解决离线强化学习中安全约束算法的隐蔽后门攻击问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 后门攻击 安全约束算法 对抗攻击 关键样本选择

📋 核心要点

现有后门攻击方法在离线强化学习中，难以有效攻击安全约束算法，且容易被检测为分布外(OOD)样本。
CS-GBA通过选择关键样本进行攻击，并设计相关性破坏触发器，提升攻击的隐蔽性和破坏性。
实验表明，CS-GBA在仅有5%投毒预算下，显著优于现有方法，成功攻击安全约束算法，且不影响干净环境性能。

📝 摘要（中文）

离线强化学习(RL)能够从静态数据集中优化策略，但容易受到后门攻击。现有的攻击策略由于低效的随机投毒和易于检测的分布外(OOD)触发器，通常难以对抗安全约束算法(如CQL)。本文提出了CS-GBA(基于关键样本的梯度引导后门攻击)，这是一个旨在以严格的预算实现高隐蔽性和破坏性的新框架。利用具有高时间差(TD)误差的样本对于价值函数收敛至关重要的理论见解，我们引入了一种自适应的关键样本选择策略，将攻击预算集中在最具影响力的转移上。为了避免OOD检测，我们提出了一种相关性破坏触发机制，该机制利用状态特征的物理互斥性(例如，第95个百分位边界)来保持统计上的隐藏。此外，我们用梯度引导动作生成机制取代了传统的标签反转，该机制使用受害者Q网络的梯度在数据流形中搜索最坏情况的动作。在D4RL基准测试上的实验结果表明，我们的方法明显优于最先进的基线，在最小的5%投毒预算下，针对具有代表性的安全约束算法实现了高攻击成功率，同时保持了智能体在干净环境中的性能。

🔬 方法详解

问题定义：离线强化学习中的后门攻击问题，尤其是在安全约束算法（如CQL）下，现有攻击方法存在两个主要痛点：一是攻击效率低，随机投毒难以奏效；二是容易被检测为分布外(OOD)样本，导致攻击失败。因此，需要一种更隐蔽、更高效的攻击方法，能够在有限的投毒预算下，成功攻击安全约束的离线强化学习智能体。

核心思路：CS-GBA的核心思路是集中攻击最具影响力的样本，并设计难以被检测的触发器。具体来说，它利用TD误差来选择关键样本，因为TD误差高的样本对价值函数的收敛至关重要。同时，通过打破状态特征之间的相关性来设计触发器，使其在统计上难以被区分，从而避免OOD检测。此外，使用梯度引导动作生成，寻找最坏情况的动作，增强攻击的破坏性。

技术框架：CS-GBA的整体框架包含三个主要模块：1) 关键样本选择：根据TD误差自适应地选择最具影响力的样本进行投毒。2) 相关性破坏触发器：利用状态特征的物理互斥性，设计难以被检测的触发器。3) 梯度引导动作生成：使用受害者Q网络的梯度，在数据流形中搜索最坏情况的动作。整个流程是：首先，选择关键样本；然后，在这些样本上注入相关性破坏触发器，并使用梯度引导生成恶意动作；最后，将这些被投毒的样本添加到离线数据集中，用于训练受害者智能体。

关键创新：CS-GBA的关键创新在于三个方面：1) 自适应关键样本选择：不同于随机投毒，CS-GBA集中攻击TD误差高的关键样本，显著提高了攻击效率。2) 相关性破坏触发器：通过打破状态特征之间的相关性，使得触发器在统计上难以被检测，提高了攻击的隐蔽性。3) 梯度引导动作生成：利用受害者Q网络的梯度，寻找最坏情况的动作，增强了攻击的破坏性。与现有方法相比，CS-GBA更加高效、隐蔽和具有破坏性。

关键设计：在关键样本选择方面，使用TD误差作为选择标准，并设置一个阈值来控制选择的样本数量。在相关性破坏触发器方面，利用状态特征的物理互斥性（例如，速度和加速度的上限），通过修改这些特征的值来注入触发器。在梯度引导动作生成方面，使用受害者Q网络的梯度信息，迭代地更新动作，直到找到能够最大化损失函数的动作。损失函数通常是Q值的负值，目标是让受害者智能体在触发状态下采取错误的动作。

📊 实验亮点

实验结果表明，CS-GBA在D4RL基准测试中显著优于现有基线方法。在仅有5%的投毒预算下，CS-GBA能够成功攻击安全约束算法，同时保持智能体在干净环境中的性能。具体而言，CS-GBA的攻击成功率比最先进的基线方法提高了显著百分比（具体数值未知，原文未提供），证明了其高效性和隐蔽性。

🎯 应用场景

该研究成果可应用于评估和增强离线强化学习系统的安全性，尤其是在涉及安全关键决策的场景中，如自动驾驶、医疗诊断和金融交易。通过模拟和防御此类攻击，可以提高这些系统在实际部署中的鲁棒性和可靠性，防止恶意攻击者利用后门漏洞造成损失。

📄 摘要（原文）

Offline Reinforcement Learning (RL) enables policy optimization from static datasets but is inherently vulnerable to backdoor attacks. Existing attack strategies typically struggle against safety-constrained algorithms (e.g., CQL) due to inefficient random poisoning and the use of easily detectable Out-of-Distribution (OOD) triggers. In this paper, we propose CS-GBA (Critical Sample-based Gradient-guided Backdoor Attack), a novel framework designed to achieve high stealthiness and destructiveness under a strict budget. Leveraging the theoretical insight that samples with high Temporal Difference (TD) errors are pivotal for value function convergence, we introduce an adaptive Critical Sample Selection strategy that concentrates the attack budget on the most influential transitions. To evade OOD detection, we propose a Correlation-Breaking Trigger mechanism that exploits the physical mutual exclusivity of state features (e.g., 95th percentile boundaries) to remain statistically concealed. Furthermore, we replace the conventional label inversion with a Gradient-Guided Action Generation mechanism, which searches for worst-case actions within the data manifold using the victim Q-network's gradient. Empirical results on D4RL benchmarks demonstrate that our method significantly outperforms state-of-the-art baselines, achieving high attack success rates against representative safety-constrained algorithms with a minimal 5% poisoning budget, while maintaining the agent's performance in clean environments.

CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理