Reinforcement Learning Platform for Adversarial Black-box Attacks with Custom Distortion Filters

📄 arXiv: 2501.14122v2 📥 PDF

作者: Soumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Vineet Gundecha, Sahand Ghorbanpour, Avisek Naug, Ricardo Luna Gutierrez, Antonio Guillen

分类: cs.LG, cs.AI, cs.CR, cs.CV

发布日期: 2025-01-23 (更新: 2025-04-15)

备注: Accepted at the 2025 AAAI Conference on Artificial Intelligence Proceedings

期刊: Proceedings of the AAAI Conference on Artificial Intelligence, Volume 39, 2025

DOI: 10.1609/aaai.v39i26.34976


💡 一句话要点

RLAB:基于强化学习的对抗攻击平台,支持自定义失真滤波器

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 对抗攻击 黑盒攻击 图像分类 鲁棒性 失真滤波器 双动作机制

📋 核心要点

  1. 现有黑盒对抗攻击方法效率较低,需要大量的查询才能成功欺骗模型,且缺乏对特定失真类型的控制。
  2. RLAB平台利用强化学习智能体,通过双动作机制,在图像的敏感区域添加最小失真,同时去除噪声,从而提高攻击效率。
  3. 实验表明,RLAB平台在查询次数方面优于现有方法,并且使用对抗样本进行重训练可以显著提高模型的鲁棒性。

📝 摘要(中文)

本文提出一个基于强化学习的对抗攻击平台RLAB,用于黑盒非定向和定向攻击。该平台允许用户选择各种失真滤波器来生成对抗样本。RLAB使用强化学习智能体,通过添加最小的失真来使目标模型产生错误分类。该智能体采用一种新颖的双动作方法,在每一步探索输入图像,以识别敏感区域来添加失真,同时消除对目标模型影响较小的噪声。这种双动作方法能够更快、更有效地收敛攻击。该平台还可用于衡量图像分类模型对特定失真类型的鲁棒性。此外,使用对抗样本重新训练模型,在基准数据集上评估时,显著提高了鲁棒性。所提出的平台在导致错误分类所需的平均查询次数方面优于最先进的方法。这提高了可信度,具有积极的社会影响。

🔬 方法详解

问题定义:论文旨在解决黑盒对抗攻击中效率低下的问题,即如何在尽可能少的查询次数下,通过添加难以察觉的扰动,使目标图像分类模型产生错误分类。现有方法通常需要大量的查询才能找到有效的对抗样本,并且难以控制扰动的类型和强度。

核心思路:论文的核心思路是利用强化学习来学习一个策略,该策略能够智能地选择图像中的敏感区域,并添加最小的、特定类型的扰动,从而快速有效地欺骗目标模型。通过双动作机制,智能体可以同时探索图像并去除噪声,加速收敛。

技术框架:RLAB平台主要包含以下几个模块:1) 环境:目标图像分类模型和失真滤波器;2) 智能体:强化学习智能体,负责生成对抗样本;3) 奖励函数:用于评估智能体生成的对抗样本的质量,例如,是否成功欺骗模型,以及扰动的大小;4) 训练过程:通过与环境交互,智能体不断学习和优化策略。

关键创新:论文的关键创新在于提出了双动作机制,智能体在每一步可以执行两个动作:一个是添加扰动到图像的某个区域,另一个是去除图像中的噪声。这种双动作机制可以更有效地探索图像,并找到对模型影响最大的扰动。此外,平台支持用户自定义失真滤波器,可以针对特定类型的扰动进行攻击和防御。

关键设计:智能体使用深度Q网络(DQN)作为策略网络。状态空间包括当前图像、扰动量和目标模型的预测结果。动作空间包括图像中的像素位置和扰动强度。奖励函数的设计考虑了攻击成功率和扰动大小。平台还提供了多种失真滤波器,例如高斯模糊、椒盐噪声等。

📊 实验亮点

RLAB平台在黑盒对抗攻击任务中,显著减少了所需的查询次数,优于现有方法。实验结果表明,使用RLAB生成的对抗样本进行重训练,可以有效提高模型在基准数据集上的鲁棒性。具体性能提升数据在论文中进行了详细展示,证明了该平台的有效性和实用性。

🎯 应用场景

该研究成果可应用于评估和提高图像分类模型的鲁棒性,尤其是在安全敏感领域,如自动驾驶、人脸识别和医疗图像诊断。通过对抗攻击,可以发现模型潜在的漏洞,并利用对抗训练等方法提高模型的防御能力,从而增强系统的安全性与可靠性。此外,该平台支持自定义失真滤波器,可以针对特定应用场景下的噪声类型进行鲁棒性评估。

📄 摘要(原文)

We present a Reinforcement Learning Platform for Adversarial Black-box untargeted and targeted attacks, RLAB, that allows users to select from various distortion filters to create adversarial examples. The platform uses a Reinforcement Learning agent to add minimum distortion to input images while still causing misclassification by the target model. The agent uses a novel dual-action method to explore the input image at each step to identify sensitive regions for adding distortions while removing noises that have less impact on the target model. This dual action leads to faster and more efficient convergence of the attack. The platform can also be used to measure the robustness of image classification models against specific distortion types. Also, retraining the model with adversarial samples significantly improved robustness when evaluated on benchmark datasets. The proposed platform outperforms state-of-the-art methods in terms of the average number of queries required to cause misclassification. This advances trustworthiness with a positive social impact.