CrossCert: A Cross-Checking Detection Approach to Patch Robustness Certification for Deep Learning Models

📄 arXiv: 2405.07668v1 📥 PDF

作者: Qilin Zhou, Zhengyuan Wei, Haipeng Wang, Bo Jiang, W. K. Chan

分类: cs.SE, cs.AI, cs.CR

发布日期: 2024-05-13

备注: 23 pages, 2 figures, accepted by FSE 2024 (The ACM International Conference on the Foundations of Software Engineering)


💡 一句话要点

提出CrossCert,通过交叉验证的检测方法增强深度学习模型对抗对抗补丁的鲁棒性认证。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对抗补丁攻击 鲁棒性认证 深度学习安全 认证恢复 认证检测 交叉验证 坚定不移认证

📋 核心要点

  1. 现有认证检测防御易受标签操纵,认证恢复防御缺乏系统性的标签警告机制。
  2. CrossCert通过交叉验证两个认证恢复防御器,实现坚定不移的认证和检测认证。
  3. 实验表明,CrossCert在保证坚定认证的同时,检测认证性能与现有方法相当。

📝 摘要(中文)

补丁鲁棒性认证是一种新兴的防御技术,它为对抗补丁攻击提供可证明的保证。目前主要有两个研究方向:认证恢复和认证检测。前者旨在正确标记恶意样本,并提供可证明的保证;后者旨在对预测为非良性标签的恶意样本发出警告,并提供可证明的保证。然而,现有的认证检测防御方法在保护易受操纵的标签方面存在不足,而现有的认证恢复防御方法无法系统地警告样本关于其标签的信息。因此,需要一种能够同时提供鲁棒标签和系统警告保护的认证防御方法来对抗补丁攻击。本文提出了一种名为CrossCert的新型认证防御技术。CrossCert通过交叉检查两个认证恢复防御器来提供坚定不移的认证和检测认证。坚定不移的认证确保经过认证的样本在受到补丁扰动时,始终返回良性标签,而不会触发任何警告,并提供可证明的保证。据我们所知,CrossCert是第一个提供这种保证的认证检测技术。实验结果表明,在检测认证方面,CrossCert的性能略低于ViP,与PatchCensor相当,但CrossCert能够认证很大一部分样本,并保证坚定不移的认证。

🔬 方法详解

问题定义:论文旨在解决深度学习模型在对抗补丁攻击下的鲁棒性认证问题。现有的认证检测方法容易受到标签操纵,而认证恢复方法无法提供系统的标签警告,导致模型在面对恶意补丁时,无法同时保证预测的准确性和可靠性。

核心思路:CrossCert的核心思路是通过交叉验证两个认证恢复防御器,从而提供更强的认证保证。具体来说,如果两个防御器都认为某个样本是良性的,那么就认为该样本是坚定不移地认证为良性的,并且不会触发任何警告。这种交叉验证的方式可以有效地减少标签操纵带来的风险,并提供更可靠的认证结果。

技术框架:CrossCert的整体框架包含两个认证恢复防御器,分别记为Defender A和Defender B。对于一个给定的输入样本,首先分别使用Defender A和Defender B进行认证恢复。然后,对两个防御器的输出结果进行交叉验证。如果两个防御器都认为该样本是良性的,则认为该样本是坚定不移地认证为良性的。否则,认为该样本可能受到对抗补丁的攻击,并发出警告。

关键创新:CrossCert的关键创新在于提出了坚定不移认证的概念,并设计了一种通过交叉验证实现坚定不移认证的方法。与现有的认证检测方法相比,CrossCert能够提供更强的认证保证,确保经过认证的样本在受到对抗补丁攻击时,始终返回良性标签,而不会触发任何警告。

关键设计:CrossCert的关键设计在于如何选择和配置两个认证恢复防御器。论文中并没有明确指定使用哪种具体的认证恢复防御器,而是强调了选择具有互补性的防御器的重要性。例如,可以选择一个基于图像恢复的防御器和一个基于特征空间分析的防御器。此外,论文还提出了一些关于如何调整防御器的参数,以平衡认证精度和鲁棒性的建议。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,CrossCert在检测认证方面,性能略低于ViP,与PatchCensor相当。但CrossCert能够认证很大一部分样本,并保证坚定不移的认证。这意味着CrossCert在提供可靠认证的同时,也能够有效地检测出潜在的恶意样本,从而提高整体的防御能力。

🎯 应用场景

CrossCert可应用于安全攸关的深度学习系统中,例如自动驾驶、人脸识别和医疗诊断等。通过提供更强的鲁棒性认证,CrossCert可以提高这些系统在面对恶意攻击时的可靠性和安全性,降低潜在的风险和损失。未来,CrossCert可以进一步扩展到其他类型的对抗攻击和更复杂的深度学习模型。

📄 摘要(原文)

Patch robustness certification is an emerging kind of defense technique against adversarial patch attacks with provable guarantees. There are two research lines: certified recovery and certified detection. They aim to label malicious samples with provable guarantees correctly and issue warnings for malicious samples predicted to non-benign labels with provable guarantees, respectively. However, existing certified detection defenders suffer from protecting labels subject to manipulation, and existing certified recovery defenders cannot systematically warn samples about their labels. A certified defense that simultaneously offers robust labels and systematic warning protection against patch attacks is desirable. This paper proposes a novel certified defense technique called CrossCert. CrossCert formulates a novel approach by cross-checking two certified recovery defenders to provide unwavering certification and detection certification. Unwavering certification ensures that a certified sample, when subjected to a patched perturbation, will always be returned with a benign label without triggering any warnings with a provable guarantee. To our knowledge, CrossCert is the first certified detection technique to offer this guarantee. Our experiments show that, with a slightly lower performance than ViP and comparable performance with PatchCensor in terms of detection certification, CrossCert certifies a significant proportion of samples with the guarantee of unwavering certification.