InkDrop: Invisible Backdoor Attacks Against Dataset Condensation

📄 arXiv: 2603.28092v1 📥 PDF

作者: He Yang, Dongyi Lv, Song Ma, Wei Xi, Zhi Wang, Hanlin Gu, Yajie Wang

分类: cs.LG

发布日期: 2026-03-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出InkDrop,提升数据集浓缩后门攻击的隐蔽性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 数据集浓缩 后门攻击 隐蔽性 对抗性攻击 模型安全

📋 核心要点

  1. 现有数据集浓缩后门攻击侧重于攻击效果和模型效用,忽略了攻击的隐蔽性,容易被检测。
  2. InkDrop利用模型决策边界附近的不确定性,通过微小扰动实现语义转变,从而构建隐蔽的后门攻击。
  3. 实验证明,InkDrop在保持模型效用和最小化可检测性的同时,有效集成了对抗意图到浓缩数据集中。

📝 摘要(中文)

数据集浓缩(DC)是一种数据高效的学习范式,它合成小而信息丰富的的数据集,使模型能够匹配全数据训练的性能。然而,最近的研究揭示了DC对后门攻击的一个严重漏洞,即恶意模式(例如,触发器)被植入到浓缩数据集中,从而导致对特定输入的有针对性的错误分类。现有的攻击总是优先考虑攻击有效性和模型效用,而忽略了隐蔽性的关键维度。为了弥补这一差距,我们提出了InkDrop,它在不降低攻击有效性和模型效用的前提下,增强了恶意操作的不可察觉性。InkDrop利用模型决策边界附近固有的不确定性,即微小的输入扰动可以引起语义变化,从而构建隐蔽而有效的后门攻击。具体来说,InkDrop首先选择目标决策边界附近表现出与目标类潜在语义亲和力的候选样本。然后,它学习受感知和空间一致性约束的实例相关扰动,将有针对性的恶意行为嵌入到浓缩数据集中。在各种数据集上的大量实验验证了InkDrop的整体有效性,证明了它能够在保持模型效用和最小化可检测性的同时,将对抗意图集成到浓缩数据集中。我们的代码可在https://github.com/lvdongyi/InkDrop获得。

🔬 方法详解

问题定义:论文旨在解决数据集浓缩(DC)中后门攻击隐蔽性不足的问题。现有的后门攻击方法虽然能够有效地植入恶意触发器并影响模型预测,但由于其触发器通常较为明显,容易被检测和防御,限制了攻击的实际应用价值。因此,如何提高后门攻击的隐蔽性,使其难以被察觉,是本研究要解决的关键问题。

核心思路:InkDrop的核心思路是利用模型决策边界附近样本的固有不确定性。在决策边界附近,微小的输入扰动就可能导致样本语义的改变,从而影响模型的分类结果。InkDrop通过精心设计的、难以察觉的扰动,将恶意行为嵌入到浓缩数据集中,使得攻击在保持有效性的同时,具有更高的隐蔽性。

技术框架:InkDrop的整体框架主要包含以下几个阶段:1) 候选样本选择:在浓缩数据集中,选择位于目标决策边界附近,且与目标类别具有潜在语义关联的样本作为候选样本。2) 扰动学习:针对每个候选样本,学习实例相关的扰动。这些扰动受到感知一致性和空间一致性的约束,以保证其难以被察觉。3) 后门嵌入:将学习到的扰动嵌入到浓缩数据集中,从而实现后门攻击。

关键创新:InkDrop最重要的创新在于其对隐蔽性的关注,以及利用决策边界附近样本不确定性的思路。与以往侧重于攻击效果和模型效用的后门攻击方法不同,InkDrop在设计过程中充分考虑了攻击的隐蔽性,通过精细的扰动设计,使得攻击难以被检测。此外,InkDrop还引入了感知一致性和空间一致性约束,进一步提高了扰动的不可察觉性。

关键设计:InkDrop的关键设计包括:1) 决策边界距离度量:用于选择决策边界附近的候选样本。2) 感知一致性损失:用于约束扰动的大小,保证其难以被察觉。3) 空间一致性损失:用于约束扰动的空间分布,避免出现明显的模式。4) 实例相关扰动学习:针对每个样本学习不同的扰动,提高攻击的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InkDrop在多个数据集上进行了广泛的实验验证,结果表明,在保持模型效用和攻击有效性的前提下,InkDrop显著提高了后门攻击的隐蔽性。与现有方法相比,InkDrop生成的后门数据集更难被检测,从而验证了其在提升攻击隐蔽性方面的优势。具体性能数据未知,但论文强调了其在最小化可检测性方面的能力。

🎯 应用场景

InkDrop的研究成果可应用于提升数据安全和模型安全领域。通过分析和防御此类隐蔽后门攻击,可以增强数据集浓缩技术的安全性,防止恶意攻击者篡改数据,保障人工智能系统的可靠性和可信度。该研究对于开发更安全的联邦学习、迁移学习等数据高效学习方法具有重要意义。

📄 摘要(原文)

Dataset Condensation (DC) is a data-efficient learning paradigm that synthesizes small yet informative datasets, enabling models to match the performance of full-data training. However, recent work exposes a critical vulnerability of DC to backdoor attacks, where malicious patterns (\textit{e.g.}, triggers) are implanted into the condensation dataset, inducing targeted misclassification on specific inputs. Existing attacks always prioritize attack effectiveness and model utility, overlooking the crucial dimension of stealthiness. To bridge this gap, we propose InkDrop, which enhances the imperceptibility of malicious manipulation without degrading attack effectiveness and model utility. InkDrop leverages the inherent uncertainty near model decision boundaries, where minor input perturbations can induce semantic shifts, to construct a stealthy and effective backdoor attack. Specifically, InkDrop first selects candidate samples near the target decision boundary that exhibit latent semantic affinity to the target class. It then learns instance-dependent perturbations constrained by perceptual and spatial consistency, embedding targeted malicious behavior into the condensed dataset. Extensive experiments across diverse datasets validate the overall effectiveness of InkDrop, demonstrating its ability to integrate adversarial intent into condensed datasets while preserving model utility and minimizing detectability. Our code is available at https://github.com/lvdongyi/InkDrop.