Dark Distillation: Backdooring Distilled Datasets without Accessing Raw Data

📄 arXiv: 2502.04229v1 📥 PDF

作者: Ziyuan Yang, Ming Yan, Yi Zhang, Joey Tianyi Zhou

分类: cs.CR, cs.AI

发布日期: 2025-02-06


💡 一句话要点

提出Dark Distillation,实现无需原始数据即可对蒸馏数据集进行后门攻击。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 后门攻击 数据安全 模型安全 对抗性攻击

📋 核心要点

  1. 现有后门攻击研究主要关注数据集所有者在初始蒸馏阶段注入后门,忽略了分发过程中的潜在威胁。
  2. 该论文提出一种新方法,通过重建概念原型并注入后门,在无需访问原始数据的情况下攻击蒸馏数据集。
  3. 实验证明蒸馏数据集易受后门攻击,且该攻击方法高效,能在短时间内合成恶意蒸馏数据集。

📝 摘要(中文)

数据集蒸馏(DD)通过将大型数据集压缩成较小的合成数据集来提高训练效率并降低带宽。它使模型能够达到与在原始完整数据集上训练的模型相当的性能,并已成为一种广泛采用的数据共享方法。然而,DD中的安全问题仍未得到充分探索。现有的研究通常假设恶意行为源于初始蒸馏过程中数据集所有者,后门被注入到原始数据集中。与此相反,这项工作首次解决了一个更现实和令人担忧的威胁:攻击者可能会拦截数据集分发过程,将后门注入到蒸馏数据集中,并将其重新分发给用户。虽然蒸馏数据集以前被认为对后门攻击具有抵抗力,但我们证明它们仍然容易受到此类攻击。此外,我们表明攻击者甚至不需要访问任何原始数据即可成功注入后门。具体来说,我们的方法从在蒸馏数据集上训练的模型中重建每个类的概念原型。然后将后门注入到这些原型中以更新蒸馏数据集。此外,我们确保更新后的数据集不仅保留后门,还保留原始优化轨迹,从而保持原始数据集的知识。为了实现这一点,设计了一种混合损失,以沿良性优化轨迹整合后门信息,确保先前学习的信息不会被遗忘。大量的实验表明,蒸馏数据集非常容易受到后门攻击,各种原始数据集、蒸馏方法和下游训练策略都存在风险。此外,我们的攻击方法是高效的,在某些情况下能够在不到一分钟的时间内合成恶意蒸馏数据集。

🔬 方法详解

问题定义:论文旨在解决蒸馏数据集在分发过程中遭受后门攻击的问题。现有研究主要关注原始数据集层面的后门注入,忽略了攻击者在数据集分发环节篡改蒸馏数据集的可能性。蒸馏数据集原本被认为具有一定的后门防御能力,但该论文证明其仍然脆弱,且攻击者无需访问原始数据即可成功实施攻击。

核心思路:核心思路是利用在蒸馏数据集上训练的模型,反向重建每个类别的概念原型(archetype)。这些原型代表了模型对该类别最核心的理解。通过在这些原型中注入后门,并更新蒸馏数据集,使得下游模型在学习这些被篡改的蒸馏数据集时,也会学习到后门行为。

技术框架:整体流程包括以下几个步骤:1) 使用蒸馏数据集训练一个模型。2) 从训练好的模型中提取每个类别的概念原型。3) 将后门注入到这些概念原型中。4) 利用注入后门的原型更新蒸馏数据集。5) 使用更新后的蒸馏数据集训练下游模型,验证后门攻击的有效性。

关键创新:最重要的创新点在于,该方法无需访问原始数据即可实现对蒸馏数据集的后门攻击。与传统的后门攻击方法不同,该方法直接作用于蒸馏数据集,绕过了原始数据集的限制。此外,通过重建概念原型,能够更有效地将后门信息注入到蒸馏数据集中。

关键设计:为了确保更新后的蒸馏数据集既包含后门,又保留原始数据集的知识,论文设计了一种混合损失函数。该损失函数包含两部分:一部分用于注入后门信息,另一部分用于保持原始优化轨迹。通过这种方式,可以避免模型在学习后门的同时,忘记之前学习到的知识。具体的后门注入方式和损失函数权重等参数设置,需要根据具体的实验场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效地对蒸馏数据集进行后门攻击,攻击成功率高达90%以上。与传统的后门攻击方法相比,该方法在无需访问原始数据的情况下,也能达到相似的攻击效果。此外,该方法具有较高的效率,在某些情况下,可以在不到一分钟的时间内合成恶意蒸馏数据集。

🎯 应用场景

该研究成果对数据安全领域具有重要意义,尤其是在数据共享和联邦学习等场景下。通过揭示蒸馏数据集的后门攻击风险,提醒研究人员和从业者重视蒸馏数据集的安全问题,并开发相应的防御机制。该研究还可以应用于恶意软件检测、网络安全等领域,提高系统的安全性。

📄 摘要(原文)

Dataset distillation (DD) enhances training efficiency and reduces bandwidth by condensing large datasets into smaller synthetic ones. It enables models to achieve performance comparable to those trained on the raw full dataset and has become a widely adopted method for data sharing. However, security concerns in DD remain underexplored. Existing studies typically assume that malicious behavior originates from dataset owners during the initial distillation process, where backdoors are injected into raw datasets. In contrast, this work is the first to address a more realistic and concerning threat: attackers may intercept the dataset distribution process, inject backdoors into the distilled datasets, and redistribute them to users. While distilled datasets were previously considered resistant to backdoor attacks, we demonstrate that they remain vulnerable to such attacks. Furthermore, we show that attackers do not even require access to any raw data to inject the backdoors successfully. Specifically, our approach reconstructs conceptual archetypes for each class from the model trained on the distilled dataset. Backdoors are then injected into these archetypes to update the distilled dataset. Moreover, we ensure the updated dataset not only retains the backdoor but also preserves the original optimization trajectory, thus maintaining the knowledge of the raw dataset. To achieve this, a hybrid loss is designed to integrate backdoor information along the benign optimization trajectory, ensuring that previously learned information is not forgotten. Extensive experiments demonstrate that distilled datasets are highly vulnerable to backdoor attacks, with risks pervasive across various raw datasets, distillation methods, and downstream training strategies. Moreover, our attack method is efficient, capable of synthesizing a malicious distilled dataset in under one minute in certain cases.