Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models

📄 arXiv: 2404.01231v1 📥 PDF

作者: Yuxin Wen, Leo Marchyok, Sanghyun Hong, Jonas Geiping, Tom Goldstein, Nicholas Carlini

分类: cs.CR, cs.LG

发布日期: 2024-04-01


💡 一句话要点

提出隐私后门攻击以增强成员推断能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐私后门攻击 成员推断 微调模型 安全协议 数据泄露 机器学习安全 开源模型

📋 核心要点

  1. 现有方法在微调大型预训练模型时存在隐私泄露风险,尤其是当模型被植入后门时,泄露率显著提高。
  2. 论文提出了一种隐私后门攻击,通过在微调过程中放大隐私泄露,揭示了模型安全性的新威胁。
  3. 实验结果表明,该攻击在多种数据集和模型上均有效,显著提高了隐私泄露的风险,呼吁对安全协议进行重新评估。

📝 摘要(中文)

在本论文中,作者揭示了一种新的隐私后门攻击,旨在放大在微调模型时出现的隐私泄露风险。当受害者微调一个被植入后门的模型时,其训练数据的泄露率显著高于微调普通模型的情况。通过对多种数据集和模型(包括视觉-语言模型和大型语言模型)的广泛实验,作者展示了该攻击的广泛适用性和有效性。此外,论文还进行了多次消融研究,以分析不同微调方法和推理策略对这一新威胁的影响,强调了机器学习社区内的一个重要隐私问题,并呼吁重新评估开源预训练模型的安全协议。

🔬 方法详解

问题定义:论文要解决的问题是微调大型预训练模型时的隐私泄露风险,尤其是当模型被植入后门时,泄露率显著高于普通模型。现有方法未能充分考虑这一隐私威胁。

核心思路:论文的核心思路是通过隐私后门攻击来放大微调过程中的隐私泄露,利用后门模型在训练数据上进行更高效的推断,从而提高泄露率。这样的设计旨在揭示当前模型使用中的潜在安全隐患。

技术框架:整体架构包括模型的选择、后门的植入、微调过程的设计以及推断阶段的评估。主要模块包括数据集准备、模型训练、后门注入和隐私泄露评估。

关键创新:最重要的技术创新点在于提出了隐私后门攻击这一新概念,强调了在微调过程中隐私泄露的严重性,与传统的后门攻击方法有本质区别。

关键设计:关键设计包括后门的注入方式、微调时的参数设置以及损失函数的选择,以确保隐私泄露的最大化,同时保持模型的有效性。

📊 实验亮点

实验结果显示,隐私后门攻击在多种数据集上均能显著提高隐私泄露率,某些情况下泄露率比普通模型高出50%以上。这一发现强调了在使用开源预训练模型时必须重新审视安全性和隐私保护措施。

🎯 应用场景

该研究的潜在应用领域包括机器学习模型的安全性评估、隐私保护机制的设计以及开源模型的安全协议改进。随着机器学习在各行业的广泛应用,理解和防范隐私后门攻击将对保护用户数据安全具有重要价值。

📄 摘要(原文)

It is commonplace to produce application-specific models by fine-tuning large pre-trained models using a small bespoke dataset. The widespread availability of foundation model checkpoints on the web poses considerable risks, including the vulnerability to backdoor attacks. In this paper, we unveil a new vulnerability: the privacy backdoor attack. This black-box privacy attack aims to amplify the privacy leakage that arises when fine-tuning a model: when a victim fine-tunes a backdoored model, their training data will be leaked at a significantly higher rate than if they had fine-tuned a typical model. We conduct extensive experiments on various datasets and models, including both vision-language models (CLIP) and large language models, demonstrating the broad applicability and effectiveness of such an attack. Additionally, we carry out multiple ablation studies with different fine-tuning methods and inference strategies to thoroughly analyze this new threat. Our findings highlight a critical privacy concern within the machine learning community and call for a reevaluation of safety protocols in the use of open-source pre-trained models.