Empirical Comparison of Membership Inference Attacks in Deep Transfer Learning
作者: Yuxuan Bai, Gauri Pradhan, Marlon Tobaben, Antti Honkela
分类: cs.LG, cs.CR
发布日期: 2025-10-07 (更新: 2025-10-08)
备注: 30 pages, 13 figures, published in TMLR https://openreview.net/forum?id=UligTUCgdt
期刊: Transactions on Machine Learning Research, ISSN 2835-8856, 2025
💡 一句话要点
对比深度迁移学习中多种成员推理攻击的有效性,为隐私风险评估提供指导。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 成员推理攻击 迁移学习 隐私风险评估 深度学习 模型安全
📋 核心要点
- 现有成员推理攻击(MIA)对迁移学习模型的隐私评估不足,仅依赖于少数攻击方法,无法全面评估隐私风险。
- 通过对比多种MIAs在迁移学习场景下的性能,旨在帮助从业者选择最有效的攻击方法进行隐私风险评估。
- 实验表明,基于分数的MIAs的攻击效果随训练数据增加而降低,且没有单一MIA能捕获所有隐私风险,LiRA总体表现较好,但IHA在特定数据集上更有效。
📝 摘要(中文)
随着强大的大规模基础模型的出现,训练范式正日益从零开始训练转向迁移学习。这使得在敏感应用中,可以使用典型的小型、特定领域数据集进行高效用训练。成员推理攻击(MIAs)提供了机器学习模型隐私泄露的经验估计。然而,先前对使用迁移学习微调的模型进行的MIAs评估依赖于可能的攻击的一个小子集。我们通过比较迁移学习设置中各种MIAs的性能来解决这个问题,以帮助从业者识别用于隐私风险评估的最有效攻击。我们发现,对于基于分数的MIAs,攻击效力随着训练数据的增加而降低。我们发现,没有一种MIA能够捕获使用迁移学习训练的模型中的所有隐私风险。虽然似然比攻击(LiRA)在大多数实验场景中表现出卓越的性能,但逆Hessian攻击(IHA)被证明在高数据状态下对在PatchCamelyon数据集上微调的模型更有效。
🔬 方法详解
问题定义:论文旨在解决深度迁移学习场景下,如何更全面、有效地评估模型隐私泄露风险的问题。现有的成员推理攻击(MIAs)评估方法通常只关注少数几种攻击方式,无法充分揭示模型在迁移学习过程中可能存在的各种隐私漏洞。尤其是在使用预训练模型进行微调时,数据分布的变化可能导致不同攻击方法的有效性差异,因此需要更全面的评估框架。
核心思路:论文的核心思路是通过对比多种不同的MIAs在迁移学习场景下的性能,来识别最有效的攻击方法,并分析不同攻击方法在不同数据和模型设置下的优劣。通过这种对比分析,可以帮助从业者更好地理解迁移学习模型的隐私风险,并选择合适的攻击方法进行评估。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择多种具有代表性的MIAs,包括基于分数的攻击(如阈值攻击、置信度攻击)和基于模型的攻击(如LiRA、IHA)。2) 在不同的数据集和模型架构上进行迁移学习实验,生成微调后的模型。3) 使用选定的MIAs对微调后的模型进行攻击,评估攻击的成功率。4) 分析不同攻击方法在不同场景下的性能差异,总结攻击效果与数据量、模型结构等因素的关系。
关键创新:论文的关键创新在于对多种MIAs在迁移学习场景下的系统性比较。以往的研究通常只关注少数几种攻击方法,而该论文则更全面地考察了不同攻击方法在不同数据和模型设置下的性能。此外,论文还发现,没有一种MIA能够始终优于其他方法,不同的攻击方法在不同的场景下可能表现出不同的有效性。这一发现对于理解迁移学习模型的隐私风险具有重要意义。
关键设计:论文的关键设计包括:1) 选择了具有代表性的MIAs,包括基于分数的攻击和基于模型的攻击。2) 采用了不同的数据集,包括图像分类数据集(如CIFAR-10、PatchCamelyon)和文本分类数据集。3) 使用了不同的预训练模型,包括ResNet、BERT等。4) 评估指标包括攻击成功率(Attack Accuracy),用于衡量攻击的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于分数的MIAs的攻击效果随着训练数据的增加而降低。LiRA在大多数实验场景中表现出卓越的性能,但IHA在PatchCamelyon数据集上,尤其是在高数据量的情况下,表现出更强的攻击能力。这表明没有一种MIA能够捕获所有隐私风险,需要根据具体场景选择合适的攻击方法。
🎯 应用场景
该研究成果可应用于评估和提升深度学习模型在迁移学习场景下的隐私保护能力。例如,在医疗影像分析、金融风控等敏感数据应用中,可以利用该研究选择合适的成员推理攻击方法,评估模型是否存在隐私泄露风险,并采取相应的防御措施,如差分隐私训练、对抗训练等,以保护用户数据安全。
📄 摘要(原文)
With the emergence of powerful large-scale foundation models, the training paradigm is increasingly shifting from from-scratch training to transfer learning. This enables high utility training with small, domain-specific datasets typical in sensitive applications. Membership inference attacks (MIAs) provide an empirical estimate of the privacy leakage by machine learning models. Yet, prior assessments of MIAs against models fine-tuned with transfer learning rely on a small subset of possible attacks. We address this by comparing performance of diverse MIAs in transfer learning settings to help practitioners identify the most efficient attacks for privacy risk evaluation. We find that attack efficacy decreases with the increase in training data for score-based MIAs. We find that there is no one MIA which captures all privacy risks in models trained with transfer learning. While the Likelihood Ratio Attack (LiRA) demonstrates superior performance across most experimental scenarios, the Inverse Hessian Attack (IHA) proves to be more effective against models fine-tuned on PatchCamelyon dataset in high data regime.