State-Aware Perturbation Optimization for Robust Deep Reinforcement Learning
作者: Zongyuan Zhang, Tianyang Duan, Zheng Lin, Dong Huang, Zihan Fang, Zekai Sun, Ling Xiong, Hongbin Liang, Heming Cui, Yong Cui
分类: cs.LG, cs.AI, cs.NI, eess.SY
发布日期: 2025-03-26
备注: 15 pages, 11 figures
💡 一句话要点
提出STAR:一种状态感知扰动优化方法,提升DRL在对抗环境下的鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 对抗攻击 鲁棒性 状态感知 信息论 机器人控制 白盒攻击
📋 核心要点
- DRL在机器人控制中应用受限,主要原因是其对环境扰动过于敏感,缺乏鲁棒性。
- STAR方法通过状态感知扰动优化,选择性地在关键状态施加扰动,并最大化扰动与状态、动作的互信息,提升攻击效果。
- 实验结果表明,STAR方法在对抗攻击任务中,显著优于现有白盒攻击方法,验证了其有效性。
📝 摘要(中文)
深度强化学习(DRL)在机器人控制领域展现出巨大潜力。然而,DRL对环境扰动的敏感性阻碍了其在真实机器人中的部署。现有的白盒对抗攻击依赖于局部梯度信息,并在所有状态下应用一致的扰动来评估DRL的鲁棒性,但它们未能考虑时间动态和状态特定的脆弱性。为了解决上述挑战,我们首先通过建立对抗受害者动态马尔可夫决策过程(AVD-MDP)对DRL中的白盒攻击进行理论分析,推导出成功攻击的充要条件。在此基础上,我们提出了一种选择性的状态感知强化对抗攻击方法,名为STAR,以优化扰动的隐蔽性和状态访问分散性。STAR首先采用基于软掩码的状态目标机制,以最小化冗余扰动,从而提高隐蔽性和攻击有效性。然后,它结合了一个信息论优化目标,以最大化扰动、环境状态和受害者行为之间的互信息,确保分散的状态访问分布,引导受害者智能体进入脆弱状态,从而最大程度地降低回报。大量实验表明,STAR优于最先进的基准方法。
🔬 方法详解
问题定义:现有白盒对抗攻击方法在评估DRL鲁棒性时,主要依赖局部梯度信息,对所有状态施加一致扰动,忽略了DRL的时间动态特性以及不同状态下智能体的脆弱性差异。这种全局一致的扰动方式效率低下,容易被防御机制检测到,无法有效评估DRL在真实环境中的鲁棒性。
核心思路:STAR的核心思路是根据智能体的状态,选择性地施加扰动,并优化扰动的隐蔽性和状态访问分散性。通过状态感知机制,减少冗余扰动,提高攻击效率;通过信息论优化,引导智能体进入脆弱状态,最大化回报降低。
技术框架:STAR方法主要包含两个核心模块:1) 基于软掩码的状态目标机制:该机制根据当前状态,生成一个软掩码,用于选择性地施加扰动,减少不必要的扰动,提高攻击的隐蔽性。2) 基于信息论的优化目标:该目标旨在最大化扰动、环境状态和受害者动作之间的互信息,从而确保分散的状态访问分布,引导受害者智能体进入脆弱状态。整体流程是,首先利用状态目标机制生成扰动候选集,然后通过信息论优化目标选择最优扰动,并将其施加到环境中,观察受害者智能体的行为,并根据行为反馈更新扰动策略。
关键创新:STAR的关键创新在于其状态感知的扰动选择机制和基于信息论的优化目标。状态感知机制能够根据智能体的状态,选择性地施加扰动,避免了全局一致扰动的低效性。信息论优化目标能够引导智能体进入脆弱状态,从而最大化攻击效果。这与现有方法中仅依赖局部梯度信息进行扰动的方式有本质区别。
关键设计:在状态目标机制中,使用一个神经网络来预测软掩码,该网络的输入是当前状态,输出是每个状态维度的扰动概率。在信息论优化目标中,使用互信息作为奖励函数,鼓励扰动能够最大程度地影响智能体的状态和动作。具体而言,互信息的计算涉及到对状态、动作和扰动分布的估计,可以使用神经网络进行建模和学习。此外,还设计了一个正则化项,用于约束扰动的幅度,保证其隐蔽性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STAR方法在多个DRL benchmark任务中,显著优于现有的白盒攻击方法。例如,在Pendulum-v1任务中,STAR方法能够将受害者智能体的平均回报降低超过50%,而在其他任务中也取得了类似的性能提升。此外,实验还验证了STAR方法在扰动隐蔽性方面的优势,其生成的扰动更难以被防御机制检测到。
🎯 应用场景
该研究成果可应用于评估和提升DRL算法在机器人控制、自动驾驶、游戏AI等领域的鲁棒性。通过对抗攻击,可以发现DRL模型的脆弱点,并针对性地进行改进,提高其在复杂和不确定环境中的适应能力。此外,该方法还可以用于生成更具挑战性的训练环境,提升DRL模型的泛化能力。
📄 摘要(原文)
Recently, deep reinforcement learning (DRL) has emerged as a promising approach for robotic control. However, the deployment of DRL in real-world robots is hindered by its sensitivity to environmental perturbations. While existing whitebox adversarial attacks rely on local gradient information and apply uniform perturbations across all states to evaluate DRL robustness, they fail to account for temporal dynamics and state-specific vulnerabilities. To combat the above challenge, we first conduct a theoretical analysis of white-box attacks in DRL by establishing the adversarial victim-dynamics Markov decision process (AVD-MDP), to derive the necessary and sufficient conditions for a successful attack. Based on this, we propose a selective state-aware reinforcement adversarial attack method, named STAR, to optimize perturbation stealthiness and state visitation dispersion. STAR first employs a soft mask-based state-targeting mechanism to minimize redundant perturbations, enhancing stealthiness and attack effectiveness. Then, it incorporates an information-theoretic optimization objective to maximize mutual information between perturbations, environmental states, and victim actions, ensuring a dispersed state-visitation distribution that steers the victim agent into vulnerable states for maximum return reduction. Extensive experiments demonstrate that STAR outperforms state-of-the-art benchmarks.