BehaviorGuard: Online Backdoor Defense for Deep Reinforcement Learning

📄 arXiv: 2605.05977v1 📥 PDF

作者: Yinbo Yu, Xueyu Yin, Jiadai Wang, Chunwei Tian, Sai Xu, Qi Zhu, Daoqiang Zhang

分类: cs.AI

发布日期: 2026-05-07

备注: 11 pages

期刊: IJCAI 2026


💡 一句话要点

提出BehaviorGuard框架,通过监测动作分布偏移实现深度强化学习的在线后门防御

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 后门防御 动作分布分析 在线检测 多智能体系统 对抗鲁棒性

📋 核心要点

  1. 现有DRL后门防御过度依赖奖励异常检测与模型微调,难以应对复杂触发器且计算开销巨大。
  2. 提出BehaviorGuard框架,通过监测动作分布的统计学偏移,实现无需触发器先验的在线后门检测。
  3. 实验证明该方法在单/多智能体场景下均表现优异,在防御效果与计算效率上均超越现有基准。

📝 摘要(中文)

后门攻击对深度强化学习(DRL)构成严重威胁。现有防御手段多依赖奖励异常来逆向触发器,或通过模型微调来消除后门,但复杂的触发模式削弱了其鲁棒性,且微调的高昂成本限制了实际应用。为此,本文将防御重点转向与触发器无关的后门输出行为,提出了BehaviorGuard,这是一个针对DRL的在线行为驱动型后门检测与缓解框架。研究发现,无论攻击形式如何,被植入后门的策略总会诱导动作分布发生一致性偏移,从而在触发器缺失的情况下,依然在高分位数区域和分布尾部留下可检测的痕迹。基于此,本文设计了一种捕捉动作分布行为漂移的新型指标,用于在运行时识别并抑制后门动作。据我们所知,这是首个能够同时应对单智能体和多智能体DRL后门攻击的在线防御方案。在多种基准测试中的评估表明,BehaviorGuard在有效性和效率上均显著优于现有方法。

🔬 方法详解

问题定义:论文旨在解决深度强化学习(DRL)中后门攻击的隐蔽性与防御成本问题。现有方法通常依赖于对奖励信号的异常分析或对模型参数的微调,这些方法在面对复杂触发器时鲁棒性较差,且微调过程需要大量计算资源,难以满足实时性要求。

核心思路:论文的核心洞察在于:无论触发器如何设计,后门策略为了确保攻击的可靠激活,必然会在动作空间中产生一致性的分布偏移。因此,防御重点应从“检测触发器”转向“检测异常的动作行为”,通过捕捉动作分布在特定区域(如高分位数和尾部)的漂移来识别后门。

技术框架:BehaviorGuard采用在线监测架构,主要包含动作分布统计模块和行为漂移评估模块。系统在运行时实时采集智能体的动作输出,计算当前策略与基准策略在动作分布上的统计差异,并根据漂移程度动态调整动作输出,从而抑制潜在的后门行为。

关键创新:该方法实现了触发器无关(Trigger-agnostic)的防御,摆脱了对触发器模式的依赖。这是首个能够统一处理单智能体与多智能体DRL环境的在线防御框架,实现了检测与缓解的实时闭环。

关键设计:核心技术在于设计了一种衡量动作分布漂移的量化指标,该指标专注于捕捉分布尾部和高分位数区域的异常波动。通过在运行时动态计算该指标,系统能够实时识别并过滤掉被判定为后门诱导的异常动作,从而在不影响正常策略性能的前提下消除攻击影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BehaviorGuard在多种主流DRL基准测试中表现出色。实验结果显示,该方法在面对不同类型的后门攻击时,均能保持极高的检测准确率,且相比于传统的微调防御方法,其计算开销降低了数个数量级,实现了实时防御,在单智能体与多智能体任务中均显著优于现有的SOTA防御基线。

🎯 应用场景

该研究适用于对安全性要求极高的DRL部署场景,如自动驾驶决策系统、工业机器人控制及金融交易算法。通过提供轻量级的在线防御能力,BehaviorGuard能够有效防止恶意植入的后门在运行时被触发,保障复杂动态环境下的智能体决策安全,具有极高的实际工程应用价值。

📄 摘要(原文)

Backdoor attacks pose a serious threat to deep reinforcement learning (DRL). Current defenses typically rely on reward anomalies to reverse-engineer triggers and model finetuning to remove backdoors. However, complex trigger patterns undermine their robustness, and fine-tuning entails high costs, limiting practical utility. Therefore, we shift defense concerns to trigger-agnostic backdoor output behaviors and propose BehaviorGuard, an online behavior-based backdoor detection and mitigation framework for DRL. Specifically, we find that regardless of attacks, backdoored policies induce consistent shifts in action distributions to ensure reliable activation, leaving detectable traces in high-quantile regions and distribution tails, even in the absence of triggers. Based on this, we design a novel metric that captures behavioral drift in action distributions to identify and suppress backdoor actions at runtime. To our knowledge, this is the first online backdoor defense that counters attacks both in single- and multi-agent DRL. Evaluated across diverse benchmarks with different backdoor attacks, BehaviorGuard consistently surpasses prior methods in both efficacy and efficiency.