Clean-Label Physical Backdoor Attacks with Data Distillation

📄 arXiv: 2407.19203v4 📥 PDF

作者: Thinh Dao, Khoa D Doan, Kok-Seng Wong

分类: cs.CR, cs.AI

发布日期: 2024-07-27 (更新: 2025-08-14)

🔗 代码/项目: GITHUB


💡 一句话要点

提出CLPBA:一种基于数据蒸馏的干净标签物理后门攻击方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 后门攻击 物理攻击 干净标签 数据蒸馏 深度学习安全

📋 核心要点

  1. 现有物理后门攻击依赖脏标签,即需修改中毒样本标签,易被人工检测,隐蔽性不足。
  2. CLPBA通过数据蒸馏,在不修改标签和训练时注入触发器的情况下,将细微扰动注入目标类样本实现后门。
  3. 实验表明,CLPBA在物理世界泛化性方面甚至优于脏标签攻击,并在面部识别和动物分类数据集上验证了有效性。

📝 摘要(中文)

深度神经网络(DNN)容易受到后门投毒攻击,现有研究主要集中在数字触发器上,即在测试时输入中添加人工模式以诱导目标错误分类。物理触发器,作为嵌入在真实场景中的自然对象,为攻击者提供了一种有前景的替代方案,因为它们可以在没有数字操作的情况下实时激活后门。然而,现有的物理后门攻击是脏标签的,这意味着攻击者必须将中毒输入的标签更改为目标标签。图像内容和标签之间的不一致使攻击暴露于人工检查,降低了其在现实环境中的隐蔽性。为了解决这个限制,我们引入了干净标签物理后门攻击(CLPBA),这是一种新的物理后门攻击范例,不需要标签操作和训练阶段的触发器注入。相反,攻击者将难以察觉的扰动注入到少量的目标类样本中,从而对模型进行后门攻击。通过将攻击构建为数据集蒸馏问题,我们开发了三种CLPBA变体——参数匹配、梯度匹配和特征匹配——它们在线性探测和完全微调训练设置下都能制作有效的毒药。在需要物理世界中后门泛化性的困难场景中,CLPBA甚至超过了脏标签攻击基线。我们通过对两个收集的面部识别和动物分类物理后门数据集进行的大量实验证明了CLPBA的有效性。代码可在https://github.com/thinh-dao/Clean-Label-Physical-Backdoor-Attacks中找到。

🔬 方法详解

问题定义:现有物理后门攻击方法主要采用“脏标签”策略,即在训练数据中,将带有物理触发器的样本的标签修改为攻击目标标签。这种方法容易被人为检测发现,降低了攻击的隐蔽性,限制了其在实际场景中的应用。因此,需要一种更隐蔽的物理后门攻击方法,能够在不修改标签的情况下实现有效的后门植入。

核心思路:论文的核心思路是将物理后门攻击问题转化为一个数据集蒸馏问题。通过在少量目标类样本上添加难以察觉的扰动,使得模型在学习这些样本时,能够将特定的物理触发器与目标类别关联起来,从而实现后门植入。这种方法避免了修改标签,提高了攻击的隐蔽性。

技术框架:CLPBA的整体框架包括以下几个阶段:1) 选择目标类别和物理触发器;2) 选择少量目标类别的干净样本;3) 使用数据蒸馏技术,计算并添加细微扰动到这些样本中,生成“中毒”样本;4) 使用包含中毒样本的训练集训练模型。论文提出了三种CLPBA变体:参数匹配、梯度匹配和特征匹配,分别从不同的角度进行数据蒸馏。

关键创新:该论文的关键创新在于提出了干净标签物理后门攻击(CLPBA)的概念,并将其建模为数据集蒸馏问题。与传统的脏标签攻击相比,CLPBA不需要修改标签,从而提高了攻击的隐蔽性。此外,论文还提出了三种不同的数据蒸馏方法来实现CLPBA,并证明了其在物理世界中的有效性。

关键设计:论文提出了三种CLPBA变体,分别基于不同的匹配策略:1) 参数匹配:通过优化中毒样本,使得使用中毒样本训练的模型参数与使用干净样本训练的模型参数尽可能接近;2) 梯度匹配:通过优化中毒样本,使得中毒样本的梯度与干净样本的梯度尽可能接近;3) 特征匹配:通过优化中毒样本,使得中毒样本的特征表示与干净样本的特征表示尽可能接近。这些方法都旨在通过细微的扰动,使得模型在学习中毒样本时,能够将物理触发器与目标类别关联起来。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLPBA在干净标签设置下能够有效地植入后门,并且在物理世界中具有良好的泛化性。在某些情况下,CLPBA甚至超过了脏标签攻击基线。例如,在面部识别数据集上,CLPBA在保持较高攻击成功率的同时,显著降低了被检测的风险。代码已开源。

🎯 应用场景

CLPBA的研究成果可应用于评估和增强人脸识别、图像分类等系统的安全性。通过模拟真实的物理后门攻击,可以帮助开发者发现模型潜在的漏洞,并采取相应的防御措施。此外,该研究也为开发更安全的机器学习系统提供了新的思路,例如,可以利用数据蒸馏技术来检测和防御后门攻击。

📄 摘要(原文)

Deep Neural Networks (DNNs) are shown to be vulnerable to backdoor poisoning attacks, with most research focusing on digital triggers -- artificial patterns added to test-time inputs to induce targeted misclassification. Physical triggers, which are natural objects embedded in real-world scenes, offer a promising alternative for attackers, as they can activate backdoors in real-time without digital manipulation. However, existing physical backdoor attacks are dirty-label, meaning that attackers must change the labels of poisoned inputs to the target label. The inconsistency between image content and label exposes the attack to human inspection, reducing its stealthiness in real-world settings. To address this limitation, we introduce Clean-Label Physical Backdoor Attack (CLPBA), a new paradigm of physical backdoor attack that does not require label manipulation and trigger injection at the training stage. Instead, the attacker injects imperceptible perturbations into a small number of target class samples to backdoor a model. By framing the attack as a Dataset Distillation problem, we develop three CLPBA variants -- Parameter Matching, Gradient Matching, and Feature Matching -- that craft effective poisons under both linear probing and full-finetuning training settings. In hard scenarios that require backdoor generalizability in the physical world, CLPBA is shown to even surpass Dirty-label attack baselines. We demonstrate the effectiveness of CLPBA via extensive experiments on two collected physical backdoor datasets for facial recognition and animal classification. The code is available in https://github.com/thinh-dao/Clean-Label-Physical-Backdoor-Attacks.