Self-Supervised Representation Learning for Adversarial Attack Detection

作者: Yi Li, Plamen Angelov, Neeraj Suri

分类: cs.CV

发布日期: 2024-07-05

备注: ECCV 2024

💡 一句话要点

提出自监督表征学习框架，用于提升对抗攻击检测的泛化能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自监督学习 对抗攻击检测 表征学习 原型对比学习 并行轴向注意力 图像识别 鲁棒性

📋 核心要点

有监督对抗攻击检测方法依赖大量标注数据，且在新的数据分布上泛化能力差，是当前面临的核心问题。
论文提出自监督表征学习框架，通过原型对比学习和判别库，学习图像的鲁棒表征，提升模型泛化性。
实验结果表明，该模型在对抗攻击检测任务中，相比现有自监督和有监督方法，取得了state-of-the-art的性能。

📝 摘要（中文）

本文提出了一种自监督表征学习框架，用于解决对抗攻击检测任务中对大量标注数据的依赖以及模型在新领域性能显著下降的问题。该框架首先将增强后的输入图像像素映射到嵌入空间，然后利用原型对比估计损失将原型聚类为潜在变量。此外，借鉴记忆库的概念，引入判别库来区分和学习共享相同或相似原型的每个实例的表征，从而建立实例与其相关原型之间的联系。论文还提出了一种基于并行轴向注意力（PAA）的编码器，通过并行训练注意力图的高度和宽度轴来促进训练过程。实验结果表明，与各种基准自监督视觉学习模型和有监督对抗攻击检测方法相比，所提出的模型在各种图像的对抗攻击检测任务中取得了最先进的性能。

🔬 方法详解

问题定义：现有的基于监督学习的对抗攻击检测方法需要大量的标注数据，并且当训练好的模型应用于新的领域时，性能会显著下降。这是因为模型过度拟合了训练数据中的特定模式，而无法很好地泛化到未见过的数据分布。因此，如何减少对标注数据的依赖，并提高模型在不同领域的泛化能力，是该论文要解决的核心问题。

核心思路：论文的核心思路是利用自监督学习方法，从无标签数据中学习到图像的鲁棒表征。通过原型对比学习，将图像聚类到不同的原型中，并利用判别库区分属于同一原型的不同实例。这种方法可以使模型学习到图像的本质特征，从而提高其对对抗攻击的鲁棒性和泛化能力。

技术框架：该框架主要包含以下几个模块：1) 图像增强模块，用于生成输入图像的多个增强版本。2) 编码器模块，将增强后的图像像素映射到嵌入空间。论文提出了一种基于并行轴向注意力（PAA）的编码器，以提高训练效率。3) 原型对比学习模块，利用原型对比估计损失将原型聚类为潜在变量。4) 判别库模块，用于区分和学习共享相同或相似原型的每个实例的表征。

关键创新：该论文的关键创新在于：1) 提出了一个完整的自监督表征学习框架，专门用于对抗攻击检测任务。2) 引入了判别库的概念，用于区分属于同一原型的不同实例，从而提高了表征的区分能力。3) 提出了基于并行轴向注意力（PAA）的编码器，提高了训练效率。

关键设计：在原型对比学习中，使用了原型对比估计损失函数，该损失函数旨在拉近同一原型内实例的距离，并推远不同原型之间的距离。判别库的设计借鉴了记忆库的思想，每个实例都与判别库中的一个向量相关联。在训练过程中，通过对比学习，使得同一原型的实例在判别库中的向量更加接近，而不同原型的实例向量更加远离。并行轴向注意力（PAA）编码器通过并行计算图像高度和宽度方向的注意力图，加速了训练过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该模型在对抗攻击检测任务中取得了state-of-the-art的性能。与各种基准自监督视觉学习模型和有监督对抗攻击检测方法相比，该模型在多个数据集上都取得了显著的提升。具体的性能数据在论文中给出，表明该方法在提高对抗攻击检测的准确性和泛化能力方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种图像识别系统，例如人脸识别、自动驾驶、医疗图像分析等，以提高这些系统在面对恶意攻击时的鲁棒性和安全性。通过减少对标注数据的依赖，该方法可以降低部署成本，并更容易地应用于新的领域。未来，该方法可以进一步扩展到其他类型的对抗攻击检测任务，例如语音识别和自然语言处理。

📄 摘要（原文）

Supervised learning-based adversarial attack detection methods rely on a large number of labeled data and suffer significant performance degradation when applying the trained model to new domains. In this paper, we propose a self-supervised representation learning framework for the adversarial attack detection task to address this drawback. Firstly, we map the pixels of augmented input images into an embedding space. Then, we employ the prototype-wise contrastive estimation loss to cluster prototypes as latent variables. Additionally, drawing inspiration from the concept of memory banks, we introduce a discrimination bank to distinguish and learn representations for each individual instance that shares the same or a similar prototype, establishing a connection between instances and their associated prototypes. We propose a parallel axial-attention (PAA)-based encoder to facilitate the training process by parallel training over height- and width-axis of attention maps. Experimental results show that, compared to various benchmark self-supervised vision learning models and supervised adversarial attack detection methods, the proposed model achieves state-of-the-art performance on the adversarial attack detection task across a wide range of images.

Self-Supervised Representation Learning for Adversarial Attack Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理