ANCHOR: Integrating Adversarial Training with Hard-mined Supervised Contrastive Learning for Robust Representation Learning

📄 arXiv: 2510.27599v1 📥 PDF

作者: Samarup Bhattacharya, Anubhab Bhattacharya, Abir Chakraborty

分类: cs.CV

发布日期: 2025-10-31

备注: 11 pages, 1 figure


💡 一句话要点

提出ANCHOR框架,结合对抗训练与难样本监督对比学习,提升表征学习的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对抗训练 监督对比学习 硬样本挖掘 鲁棒性 表征学习

📋 核心要点

  1. 神经网络易受对抗攻击,微小扰动即可使其错误分类,现有方法难以兼顾准确率和鲁棒性。
  2. ANCHOR框架结合对抗训练与监督对比学习,通过硬样本挖掘,使同类图像及其扰动在嵌入空间聚集。
  3. 在CIFAR-10数据集上,ANCHOR在对抗攻击下表现优异,显著提升了模型的鲁棒性和泛化能力。

📝 摘要(中文)

神经网络通过梯度下降学习数据中的判别模式,但也因此存在对抗攻击的漏洞。微小的、难以察觉的扰动就能导致模型做出错误判断。本文提出了对抗训练对比硬样本挖掘优化鲁棒性框架(ANCHOR),利用监督对比学习和显式的硬正样本挖掘,使模型学习到的图像表征能够将原始图像、增强图像和对抗扰动图像的嵌入,以及同类别的其他图像的嵌入在嵌入空间中聚集在一起,同时与其他类别的图像分离。这种对齐有助于模型关注稳定、有意义的模式,而不是脆弱的梯度线索。在CIFAR-10数据集上,我们的方法在PGD-20攻击下(epsilon = 0.031)实现了令人印象深刻的干净准确率和鲁棒准确率,优于标准对抗训练方法。结果表明,将对抗指导与硬样本对比监督相结合,有助于模型学习更结构化和鲁棒的表征,缩小准确率和鲁棒性之间的差距。

🔬 方法详解

问题定义:该论文旨在解决深度学习模型在对抗攻击下的脆弱性问题。现有方法,如标准对抗训练,虽然可以提高模型的鲁棒性,但往往会牺牲在干净数据上的准确率。此外,模型容易受到精心设计的对抗样本的攻击,泛化能力不足。

核心思路:论文的核心思路是将对抗训练与监督对比学习相结合,并引入硬样本挖掘策略。通过对抗训练,模型可以学习抵抗扰动的能力;通过监督对比学习,模型可以学习到更具区分性的特征表示,使得同类样本在嵌入空间中更加接近,不同类样本更加远离;硬样本挖掘则进一步关注那些容易被错误分类的样本,从而提升模型的鲁棒性。

技术框架:ANCHOR框架主要包含三个关键部分:1) 对抗样本生成模块,使用PGD等方法生成对抗样本;2) 特征提取模块,使用神经网络提取图像的特征表示;3) 对比学习损失计算模块,计算监督对比损失,促使同类样本的嵌入向量靠近,异类样本的嵌入向量远离。整个训练流程是,首先对原始图像进行对抗扰动,然后将原始图像、对抗样本以及增强后的图像输入到特征提取模块,得到它们的嵌入向量,最后计算对比损失并更新模型参数。

关键创新:该论文的关键创新在于将对抗训练与硬样本监督对比学习有效结合。传统的对抗训练主要关注单个样本的分类正确性,而ANCHOR框架则关注样本之间的关系,通过对比学习的方式,使得模型学习到的特征表示更具鲁棒性和泛化能力。此外,硬样本挖掘策略能够进一步提升模型对困难样本的识别能力。

关键设计:ANCHOR框架的关键设计包括:1) 使用PGD-20生成对抗样本,epsilon设置为0.031;2) 使用ResNet等深度神经网络作为特征提取器;3) 使用监督对比损失函数,鼓励同类样本的嵌入向量靠近,异类样本的嵌入向量远离;4) 采用硬正样本挖掘策略,选择与锚点样本距离最远的同类样本作为正样本,从而提升模型的鲁棒性。

🖼️ 关键图片

fig_0

📊 实验亮点

ANCHOR在CIFAR-10数据集上,针对PGD-20攻击(epsilon=0.031),实现了优于标准对抗训练方法的干净准确率和鲁棒准确率。实验结果表明,结合对抗指导与硬样本对比监督,能够有效提升模型的鲁棒性和泛化能力,缩小了准确率和鲁棒性之间的差距。

🎯 应用场景

该研究成果可应用于图像识别、自动驾驶、医疗诊断等对安全性要求较高的领域。通过提高模型对对抗攻击的鲁棒性,可以有效防止恶意攻击,保障系统的稳定运行和数据的安全性。未来,该方法有望推广到其他模态的数据,如语音、文本等,提升人工智能系统的整体安全性。

📄 摘要(原文)

Neural networks have changed the way machines interpret the world. At their core, they learn by following gradients, adjusting their parameters step by step until they identify the most discriminant patterns in the data. This process gives them their strength, yet it also opens the door to a hidden flaw. The very gradients that help a model learn can also be used to produce small, imperceptible tweaks that cause the model to completely alter its decision. Such tweaks are called adversarial attacks. These attacks exploit this vulnerability by adding tiny, imperceptible changes to images that, while leaving them identical to the human eye, cause the model to make wrong predictions. In this work, we propose Adversarially-trained Contrastive Hard-mining for Optimized Robustness (ANCHOR), a framework that leverages the power of supervised contrastive learning with explicit hard positive mining to enable the model to learn representations for images such that the embeddings for the images, their augmentations, and their perturbed versions cluster together in the embedding space along with those for other images of the same class while being separated from images of other classes. This alignment helps the model focus on stable, meaningful patterns rather than fragile gradient cues. On CIFAR-10, our approach achieves impressive results for both clean and robust accuracy under PGD-20 (epsilon = 0.031), outperforming standard adversarial training methods. Our results indicate that combining adversarial guidance with hard-mined contrastive supervision helps models learn more structured and robust representations, narrowing the gap between accuracy and robustness.