Benchmarking Empirical Privacy Protection for Adaptations of Large Language Models
作者: Bartłomiej Marek, Lorenzo Rossi, Vincent Hanke, Xun Wang, Michael Backes, Franziska Boenisch, Adam Dziedzic
分类: cs.LG, cs.CR
发布日期: 2026-06-08
备注: Accepted at ICLR 2026 (Oral)
💡 一句话要点
提出实证隐私保护基准以优化大语言模型适应性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 差分隐私 大语言模型 隐私保护 适应性 稳健攻击 微调方法 数据分布 实证基准
📋 核心要点
- 现有方法在大语言模型的适应性中,尽管有理论保障,但实际隐私保护效果不佳,尤其是在数据重叠情况下。
- 论文提出通过系统性变化适应数据分布,结合先进攻击方法,评估DP适应下的隐私风险,提供实证基准。
- 实验结果表明,适应数据与预训练数据的接近程度显著影响隐私风险,LoRA方法在OOD数据上表现最佳。
📝 摘要(中文)
近期研究将差分隐私(DP)应用于大语言模型(LLMs)的敏感应用中,提供了理论保障。然而,其实际有效性仍不明确,部分原因在于LLM的预训练与适应数据之间的重叠和相互依赖可能削弱隐私保护。本文通过使用先进的攻击方法,如稳健的成员推断和金丝雀数据提取,分析了DP适应下的隐私风险,并通过系统性变化适应数据分布进行基准测试。研究发现,适应数据与预训练分布的接近程度显著影响隐私脆弱性,且LoRA等参数高效微调方法在OOD数据上实现了最高的实证隐私保护。本文为在敏感环境中部署定制模型提供了可操作的见解,并提出了一个结构化框架以全面评估隐私风险。
🔬 方法详解
问题定义:本文旨在解决大语言模型在适应性过程中,差分隐私的实际有效性不足的问题。现有方法在处理适应数据与预训练数据重叠时,隐私保护效果受到挑战。
核心思路:通过系统性地改变适应数据的分布,结合稳健的攻击方法,评估不同适应方法和隐私机制下的隐私风险,以提供实证基准。
技术框架:研究首先定义了适应数据的分布变化,包括精确重叠、同分布和完全异分布的情况。接着,使用不同的适应方法(如LoRA)进行微调,并评估其隐私保护效果。
关键创新:本文的主要创新在于识别适应数据分布对隐私脆弱性的影响,提出了一个系统的基准测试框架,能够在不同的隐私机制下进行比较。
关键设计:在实验中,采用了多种适应方法和隐私机制,特别关注参数高效的微调方法(如LoRA),并通过稳健的成员推断和金丝雀数据提取等攻击方法进行评估。实验设计确保了对不同数据分布情况下隐私风险的全面分析。
📊 实验亮点
实验结果显示,适应数据与预训练数据的接近程度显著影响隐私风险,且在相同理论保障下,隐私风险随适应数据的变化而变化。LoRA方法在OOD数据上实现了最高的实证隐私保护,提供了重要的实践参考。
🎯 应用场景
该研究的潜在应用领域包括医疗、金融等对隐私要求极高的敏感场景。通过提供实证隐私保护基准,研究为定制化大语言模型的安全部署提供了理论支持和实践指导,未来可在更多领域推广应用。
📄 摘要(原文)
Recent work has applied differential privacy (DP) to adapt large language models (LLMs) for sensitive applications, offering theoretical guarantees. However, its practical effectiveness remains unclear, partly due to LLM pretraining, where overlaps and interdependencies with adaptation data can undermine privacy despite DP efforts. To analyze this issue in practice, we investigate privacy risks under DP adaptations in LLMs using state-of-the-art attacks such as robust membership inference and canary data extraction. We benchmark these risks by systematically varying the adaptation data distribution, from exact overlaps with pretraining data, through in-distribution (IID) cases, to entirely out-of-distribution (OOD) examples. Additionally, we evaluate how different adaptation methods and different privacy regimes impact the vulnerability. Our results show that distribution shifts strongly influence privacy vulnerability: the closer the adaptation data is to the pretraining distribution, the higher the practical privacy risk at the same theoretical guarantee, even without direct data overlap. We find that parameter-efficient fine-tuning methods, such as LoRA, achieve the highest empirical privacy protection for OOD data. Our benchmark identifies key factors for achieving practical privacy in DP LLM adaptation, providing actionable insights for deploying customized models in sensitive settings. Looking forward, we propose a structured framework for holistic privacy assessment beyond adaptation privacy, to identify and evaluate risks across the full pretrain-adapt pipeline of LLMs.