FLARE: Toward Universal Dataset Purification against Backdoor Attacks

📄 arXiv: 2411.19479v3 📥 PDF

作者: Linshan Hou, Wei Luo, Zhongyun Hua, Songhua Chen, Leo Yu Zhang, Yiming Li

分类: cs.CR, cs.AI, cs.CV, cs.LG

发布日期: 2024-11-29 (更新: 2025-06-22)

备注: 15 pages, This paper is accepted and will appear in TIFS (CCF-A)

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

提出FLARE以解决后门攻击下的数据集净化问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 后门攻击 数据集净化 深度学习 异常检测 聚类算法 自适应选择 模型安全

📋 核心要点

  1. 现有数据集净化方法假设后门连接比良性特征更易学习,但在某些攻击中并不成立,导致净化效果不佳。
  2. FLARE通过聚合所有隐藏层的异常激活来构建聚类表示,并采用自适应子空间选择算法来增强样本分离性。
  3. 在基准数据集上的广泛评估表明,FLARE对22种代表性后门攻击有效,且对自适应攻击具有鲁棒性。

📝 摘要(中文)

深度神经网络(DNN)易受后门攻击,攻击者通过在数据集中注入特定触发器来植入隐藏的后门,从而操控模型预测。数据集净化作为一种主动防御手段,通过去除恶意训练样本来防止后门注入。本文揭示了现有净化方法依赖于一个潜在假设,即后门攻击中触发器与目标标签之间的连接比良性特征更易学习。然而,这一假设并不总是成立,尤其是在全对全(A2A)和无目标(UT)攻击中。因此,基于输入输出空间或最终隐藏层空间分析被污染样本与良性样本的分离性的方法效果较差。为此,本文提出FLARE,一种通用的净化方法,能够对抗多种后门攻击。

🔬 方法详解

问题定义:本文旨在解决深度神经网络在后门攻击下的数据集净化问题。现有方法通常依赖于后门连接的简单性假设,但在复杂攻击场景中,这一假设不成立,导致净化效果不理想。

核心思路:FLARE的核心思路是聚合所有隐藏层的异常激活,以构建更有效的聚类表示,从而提高对被污染样本的识别能力。通过自适应选择最佳子空间,FLARE能够更好地分离良性样本与被污染样本。

技术框架:FLARE的整体架构包括数据预处理、异常激活聚合、子空间选择和聚类评估四个主要模块。首先对输入数据进行预处理,然后从所有隐藏层提取激活值,接着选择最佳子空间进行聚类,最后评估聚类的稳定性以识别被污染的样本。

关键创新:FLARE的主要创新在于其自适应子空间选择算法,能够动态调整聚类空间,从而有效提高样本分离性。这一方法与传统基于单层分析的净化方法有本质区别。

关键设计:FLARE在聚类过程中使用了稳定性评估机制,识别出稳定性更高的聚类作为被污染样本。此外,算法在参数设置上进行了优化,以适应不同类型的后门攻击。具体的损失函数和网络结构设计也经过精心调整,以确保最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FLARE在对抗22种代表性后门攻击(包括A2O、A2A和UT攻击)时表现出色,显著提高了净化效果。实验结果显示,FLARE在多个基准数据集上相较于现有方法具有更高的准确性和鲁棒性,证明了其有效性。

🎯 应用场景

FLARE的研究成果在多个领域具有潜在应用价值,尤其是在安全敏感的机器学习系统中,如金融、医疗和自动驾驶等领域。通过有效净化数据集,FLARE能够提高模型的安全性和可靠性,防止恶意攻击带来的风险。未来,FLARE的技术框架也可以扩展到其他类型的攻击防御中,进一步提升模型的鲁棒性。

📄 摘要(原文)

Deep neural networks (DNNs) are susceptible to backdoor attacks, where adversaries poison datasets with adversary-specified triggers to implant hidden backdoors, enabling malicious manipulation of model predictions. Dataset purification serves as a proactive defense by removing malicious training samples to prevent backdoor injection at its source. We first reveal that the current advanced purification methods rely on a latent assumption that the backdoor connections between triggers and target labels in backdoor attacks are simpler to learn than the benign features. We demonstrate that this assumption, however, does not always hold, especially in all-to-all (A2A) and untargeted (UT) attacks. As a result, purification methods that analyze the separation between the poisoned and benign samples in the input-output space or the final hidden layer space are less effective. We observe that this separability is not confined to a single layer but varies across different hidden layers. Motivated by this understanding, we propose FLARE, a universal purification method to counter various backdoor attacks. FLARE aggregates abnormal activations from all hidden layers to construct representations for clustering. To enhance separation, FLARE develops an adaptive subspace selection algorithm to isolate the optimal space for dividing an entire dataset into two clusters. FLARE assesses the stability of each cluster and identifies the cluster with higher stability as poisoned. Extensive evaluations on benchmark datasets demonstrate the effectiveness of FLARE against 22 representative backdoor attacks, including all-to-one (A2O), all-to-all (A2A), and untargeted (UT) attacks, and its robustness to adaptive attacks. Codes are available at \href{https://github.com/THUYimingLi/BackdoorBox}{BackdoorBox} and \href{https://github.com/vtu81/backdoor-toolbox}{backdoor-toolbox}.