VTarbel: Targeted Label Attack with Minimal Knowledge on Detector-enhanced Vertical Federated Learning
作者: Juntao Tan, Anran Li, Quanchao Liu, Peng Ran, Lan Zhang
分类: cs.CR, cs.AI
发布日期: 2025-07-19
💡 一句话要点
VTarbel:针对检测器增强的垂直联邦学习的最小知识目标标签攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 垂直联邦学习 目标标签攻击 对抗样本 异常检测 安全漏洞
📋 核心要点
- 现有针对垂直联邦学习的目标标签攻击依赖不切实际的假设,忽略了实际部署中的异常检测器。
- VTarbel框架通过两阶段方法,利用最小知识,估计检测器和替代模型,生成对抗样本以规避检测。
- 实验表明,VTarbel在多种模型、数据集和检测器下,优于现有方法,并能有效对抗隐私保护防御。
📝 摘要(中文)
垂直联邦学习(VFL)允许多个具有不相交特征的参与方在不共享原始数据的情况下协同训练模型。虽然VFL的隐私漏洞已被广泛研究,但其安全威胁——特别是目标标签攻击——仍未被充分探索。在这种攻击中,被动方在推理时扰动输入,以强制错误分类为对抗者选择的标签。现有方法依赖于不切实际的假设(例如,访问VFL模型的输出),并忽略了实际系统中部署的异常检测器。为了弥合这一差距,我们引入了VTarbel,这是一个两阶段的、最小知识的攻击框架,专门设计用于规避检测器增强的VFL推理。在准备阶段,攻击者选择最小的高表达性样本集(通过最大均值差异),通过VFL协议提交它们以收集预测标签,并使用这些伪标签在本地特征上训练估计的检测器和替代模型。在攻击阶段,这些模型指导剩余样本的基于梯度的扰动,制作对抗性实例,从而诱导目标错误分类并规避检测。我们实现了VTarbel,并针对四种模型架构、七个多模态数据集和两种异常检测器对其进行了评估。在所有设置中,VTarbel优于四种最先进的基线方法,规避了检测,并且对三种具有代表性的隐私保护防御措施仍然有效。这些结果揭示了当前VFL部署中的关键安全盲点,并强调了对鲁棒的、具有攻击意识的防御措施的迫切需求。
🔬 方法详解
问题定义:论文旨在解决垂直联邦学习(VFL)中,针对目标标签攻击的安全问题。现有攻击方法通常假设攻击者可以访问VFL模型的输出,这在实际场景中是不现实的。此外,现有方法忽略了VFL系统中常见的异常检测器,导致攻击容易被发现。因此,需要一种在最小知识下,能够规避检测器的目标标签攻击方法。
核心思路:VTarbel的核心思路是,攻击者在不直接访问VFL模型输出的情况下,通过与VFL系统交互,收集少量样本的预测标签,并利用这些标签训练本地的替代模型和异常检测器估计器。然后,利用这些估计器指导对抗样本的生成,使其能够诱导目标错误分类,同时规避异常检测。
技术框架:VTarbel框架包含两个主要阶段:准备阶段和攻击阶段。 1. 准备阶段:攻击者首先选择少量具有代表性的样本(通过最大均值差异选择),通过VFL协议提交这些样本,获取预测标签,并将这些标签作为伪标签。然后,攻击者利用这些伪标签,在本地特征上训练替代模型和异常检测器估计器。 2. 攻击阶段:攻击者利用准备阶段训练的替代模型和异常检测器估计器,指导剩余样本的基于梯度的扰动,生成对抗样本。这些对抗样本旨在诱导目标错误分类,同时最小化被异常检测器检测到的可能性。
关键创新:VTarbel的关键创新在于其最小知识攻击策略,以及对异常检测器的显式规避。与现有方法相比,VTarbel不需要访问VFL模型的输出,而是通过与VFL系统的交互来学习替代模型和检测器估计器。此外,VTarbel在对抗样本生成过程中,考虑了异常检测器的存在,从而提高了攻击的隐蔽性。
关键设计:VTarbel的关键设计包括: 1. 样本选择:使用最大均值差异(MMD)选择具有代表性的样本,以减少训练替代模型所需的样本数量。 2. 替代模型和检测器估计器:使用本地特征训练替代模型和检测器估计器,以模拟VFL模型的行为和异常检测器的行为。 3. 对抗样本生成:使用基于梯度的扰动方法,生成对抗样本,同时考虑替代模型的分类损失和检测器估计器的检测概率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VTarbel在四种模型架构、七个多模态数据集和两种异常检测器下,均优于四种最先进的基线方法。VTarbel能够有效规避检测,并且对三种具有代表性的隐私保护防御措施仍然有效。例如,在某个数据集上,VTarbel的攻击成功率比最佳基线高出15%,同时将检测率降低了20%。
🎯 应用场景
VTarbel的研究成果可应用于评估和增强垂直联邦学习系统的安全性。通过模拟实际攻击场景,可以发现VFL系统中的安全漏洞,并开发更鲁棒的防御机制。该研究对于保护用户隐私和数据安全,促进联邦学习技术的广泛应用具有重要意义。
📄 摘要(原文)
Vertical federated learning (VFL) enables multiple parties with disjoint features to collaboratively train models without sharing raw data. While privacy vulnerabilities of VFL are extensively-studied, its security threats-particularly targeted label attacks-remain underexplored. In such attacks, a passive party perturbs inputs at inference to force misclassification into adversary-chosen labels. Existing methods rely on unrealistic assumptions (e.g., accessing VFL-model's outputs) and ignore anomaly detectors deployed in real-world systems. To bridge this gap, we introduce VTarbel, a two-stage, minimal-knowledge attack framework explicitly designed to evade detector-enhanced VFL inference. During the preparation stage, the attacker selects a minimal set of high-expressiveness samples (via maximum mean discrepancy), submits them through VFL protocol to collect predicted labels, and uses these pseudo-labels to train estimated detector and surrogate model on local features. In attack stage, these models guide gradient-based perturbations of remaining samples, crafting adversarial instances that induce targeted misclassifications and evade detection. We implement VTarbel and evaluate it against four model architectures, seven multimodal datasets, and two anomaly detectors. Across all settings, VTarbel outperforms four state-of-the-art baselines, evades detection, and retains effective against three representative privacy-preserving defenses. These results reveal critical security blind spots in current VFL deployments and underscore urgent need for robust, attack-aware defenses.