Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs
作者: Kunj Joshi, David A. Smith
分类: cs.CL, cs.CR, cs.LG
发布日期: 2025-12-02
备注: To be submitted for ICML 2026
💡 一句话要点
提出随机掩码微调以解决大语言模型中的隐私泄露问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐私保护 大语言模型 记忆化问题 随机掩码 微调技术 数据安全 性能评估
📋 核心要点
- 现有大型语言模型在训练过程中容易记住个人身份信息,导致严重的隐私泄露风险。
- 论文提出随机掩码微调(RMFT)技术,通过随机掩码的方式减少模型对PII的记忆,同时保持模型性能。
- 实验结果表明,RMFT在总提取率和已见提取率上分别减少了80.81%和80.17%,且困惑度仅增加5.73%。
📝 摘要(中文)
当前关于自然语言模型,特别是大型语言模型(LLMs)中的记忆化问题的文献,揭示了严重的安全和隐私风险,因为模型往往会记住训练数据中的个人身份信息(PIIs)。我们提出了一种新颖的隐私保护微调技术——随机掩码微调(RMFT),旨在减少PII的记忆化,同时尽量降低对性能的影响。通过使用恩龙电子邮件数据集,我们证明RMFT在总提取率上实现了80.81%的减少,在已见提取率上实现了80.17%的减少,相较于基线微调,超越了去重方法,同时仅增加了5.73%的困惑度。我们还提出了MaxTER,一个用于评估隐私与效用权衡的帕累托最优评估框架,并通过响应曲线下的面积(AURC)指标展示RMFT与去重方法的性能对比。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型在训练过程中对个人身份信息(PIIs)的记忆化问题。现有方法在保护隐私方面存在不足,容易导致安全风险。
核心思路:随机掩码微调(RMFT)通过引入随机掩码的机制,减少模型对PII的记忆,同时尽量保持模型的性能表现。该方法的设计旨在在隐私保护与模型效用之间找到平衡。
技术框架:RMFT的整体架构包括数据预处理、随机掩码生成、模型微调和性能评估四个主要模块。数据预处理阶段负责清洗和准备训练数据,随机掩码生成模块则负责动态生成掩码以干扰PII的记忆。
关键创新:RMFT的主要创新在于其随机掩码的设计,使得模型在微调过程中能够有效地减少对PII的记忆,而这一点在传统的去重方法中并未实现。
关键设计:在RMFT中,关键参数包括掩码比例和微调轮次,损失函数设计为兼顾隐私保护与模型性能的平衡,网络结构则基于现有的LLM架构进行优化。通过这些设计,RMFT能够在降低隐私风险的同时,保持较高的模型效能。
🖼️ 关键图片
📊 实验亮点
实验结果显示,随机掩码微调(RMFT)在总提取率上实现了80.81%的减少,在已见提取率上实现了80.17%的减少,相较于基线微调,且困惑度仅增加了5.73%。此外,RMFT在隐私与效用的权衡评估中表现优于传统去重方法,展现了其有效性。
🎯 应用场景
该研究的潜在应用领域包括金融、医疗和社交媒体等行业,这些领域对用户隐私保护要求极高。通过有效减少模型对个人身份信息的记忆,RMFT能够帮助企业在提供智能服务的同时,降低隐私泄露的风险,提升用户信任度。未来,该技术有望在更多需要隐私保护的AI应用中得到推广。
📄 摘要(原文)
The current literature on memorization in Natural Language Models, especially Large Language Models (LLMs), poses severe security and privacy risks, as models tend to memorize personally identifying information (PIIs) from training data. We introduce Randomized Masked Fine-Tuning (RMFT), a novel privacy-preserving fine-tuning technique that reduces PII memorization while minimizing performance impact. Using the Enron Email Dataset, we demonstrate that RMFT achieves an 80.81% reduction in Total Extraction Rate and 80.17% reduction in Seen Extraction Rate compared to baseline fine-tuning, outperforming deduplication methods while maintaining only a 5.73% increase in perplexity. We present MaxTER, a Pareto-optimal evaluation framework for assessing privacy-utility tradeoffs, and show the performance of RMFT vs Deduplication by Area Under The Response Curve (AURC) metric.