Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization

📄 arXiv: 2511.07210v2 📥 PDF

作者: Binyan Xu, Fan Yang, Di Tang, Xilin Dai, Kehuan Zhang

分类: cs.CV, cs.CR, cs.LG

发布日期: 2025-11-10 (更新: 2025-11-11)

备注: 19 pages, 22 figures, 15 tables. To appear in AAAI '26 (Oral). This paper extends the AAAI-2026 version by including the Appendix


💡 一句话要点

提出GCB框架,通过生成式触发器优化解决clean-image后门攻击的隐蔽性与效力权衡问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 后门攻击 clean-image攻击 生成对抗网络 InfoGAN 触发器优化

📋 核心要点

  1. 现有clean-image后门攻击需要在隐蔽性(clean accuracy下降)和攻击效力之间进行权衡,高投毒率导致精度明显下降。
  2. GCB框架利用条件InfoGAN识别图像中自然存在的、可分离的特征作为触发器,从而降低了对中毒样本的需求。
  3. 实验证明GCB在多种数据集、架构和任务上有效,且对现有后门防御具有一定的鲁棒性,clean accuracy下降小于1%。

📝 摘要(中文)

Clean-image后门攻击仅通过操纵训练数据集标签来破坏深度神经网络,对安全关键应用构成重大威胁。现有方法的一个关键缺陷是,成功攻击所需的投毒率会导致clean accuracy (CA) 显著下降,从而降低了隐蔽性。本文提出了一种新的clean-image攻击范式,通过优化触发器本身来最大限度地减少这种精度下降。我们引入了生成式Clean-Image后门(GCB),该框架使用条件InfoGAN来识别自然发生的图像特征,这些特征可以作为有效且隐蔽的触发器。通过确保这些触发器易于与良性任务相关特征分离,GCB使受害者模型能够从极少量的中毒样本中学习后门,从而导致CA下降小于1%。实验表明GCB具有显著的通用性,成功地适应了六个数据集、五种架构和四项任务,包括首次展示了回归和分割中的clean-image后门。GCB还表现出对大多数现有后门防御的抵抗力。

🔬 方法详解

问题定义:Clean-image后门攻击旨在通过仅修改训练数据的标签来植入后门,而无需在图像中添加明显的触发器。现有方法的痛点在于,为了保证后门攻击的成功率(即效力),通常需要较高的投毒率,这会导致模型在干净数据上的准确率(Clean Accuracy, CA)显著下降,从而暴露攻击痕迹,降低了攻击的隐蔽性。因此,如何在保证攻击效力的同时,最大限度地降低对Clean Accuracy的影响,是该研究要解决的核心问题。

核心思路:论文的核心思路是优化触发器本身,使其既能有效激活后门,又能与正常图像特征区分开,从而降低对中毒样本数量的需求。通过生成具有特定属性的触发器,并确保这些触发器与正常任务相关的特征具有良好的可分离性,模型可以在少量中毒样本下学习到后门,从而最大限度地减少对Clean Accuracy的影响。

技术框架:GCB框架主要包含以下几个关键模块:1) 条件InfoGAN:用于生成具有特定属性的图像特征,这些特征将作为后门触发器。InfoGAN通过最大化互信息来学习隐变量和生成图像之间的关系,从而控制生成图像的属性。2) 触发器选择:选择InfoGAN生成的、与正常图像特征具有良好可分离性的特征作为触发器。可分离性可以通过计算触发器特征和正常图像特征之间的距离或相似度来衡量。3) 后门植入:使用选定的触发器和少量中毒样本来训练模型,从而将后门植入到模型中。中毒样本的标签被修改为目标标签,使得模型在看到触发器时会错误地预测为目标标签。

关键创新:GCB的关键创新在于利用生成模型(条件InfoGAN)来优化触发器,使其具有良好的可分离性和攻击效力。与现有方法相比,GCB不需要手动设计触发器或依赖大量中毒样本,而是通过学习数据中的自然特征来生成触发器,从而提高了攻击的隐蔽性和效率。此外,GCB首次在回归和分割任务中实现了clean-image后门攻击。

关键设计:GCB的关键设计包括:1) 条件InfoGAN的结构:InfoGAN的生成器和判别器结构需要根据具体任务进行设计,以生成具有特定属性的图像特征。2) 损失函数:除了InfoGAN的标准损失函数外,还可以添加额外的损失函数来约束生成触发器的属性,例如,可以使用对抗损失来提高触发器的隐蔽性。3) 触发器选择策略:选择触发器的标准需要根据具体任务进行调整,例如,可以使用聚类算法来选择与正常图像特征距离较远的触发器。4) 中毒率:中毒率是影响攻击效果的关键参数,需要根据具体任务进行调整,以在攻击效力和Clean Accuracy之间取得平衡。

📊 实验亮点

实验结果表明,GCB在六个数据集、五种架构和四项任务(包括回归和分割)上均取得了成功,实现了小于1%的Clean Accuracy下降。与现有方法相比,GCB在保证攻击效力的同时,显著提高了攻击的隐蔽性。此外,GCB还表现出对大多数现有后门防御的抵抗力,表明其具有较强的鲁棒性。这些结果验证了GCB框架的有效性和通用性。

🎯 应用场景

该研究成果可应用于评估和增强深度学习模型的安全性,尤其是在安全敏感领域,如自动驾驶、医疗诊断和金融风控等。通过模拟clean-image后门攻击,可以发现模型潜在的安全漏洞,并开发相应的防御机制。此外,该技术也可用于开发更安全的模型训练方法,例如,通过对抗训练来提高模型对后门攻击的鲁棒性。未来的研究方向包括探索更隐蔽、更有效的触发器生成方法,以及开发更通用的后门防御技术。

📄 摘要(原文)

Clean-image backdoor attacks, which use only label manipulation in training datasets to compromise deep neural networks, pose a significant threat to security-critical applications. A critical flaw in existing methods is that the poison rate required for a successful attack induces a proportional, and thus noticeable, drop in Clean Accuracy (CA), undermining their stealthiness. This paper presents a new paradigm for clean-image attacks that minimizes this accuracy degradation by optimizing the trigger itself. We introduce Generative Clean-Image Backdoors (GCB), a framework that uses a conditional InfoGAN to identify naturally occurring image features that can serve as potent and stealthy triggers. By ensuring these triggers are easily separable from benign task-related features, GCB enables a victim model to learn the backdoor from an extremely small set of poisoned examples, resulting in a CA drop of less than 1%. Our experiments demonstrate GCB's remarkable versatility, successfully adapting to six datasets, five architectures, and four tasks, including the first demonstration of clean-image backdoors in regression and segmentation. GCB also exhibits resilience against most of the existing backdoor defenses.