Memorization in Fine-Tuned Large Language Models
作者: Danil Savine
分类: cs.CL, cs.AI
发布日期: 2025-07-28 (更新: 2025-08-05)
💡 一句话要点
研究微调LLM中的记忆机制,揭示性能与隐私的权衡,为医疗领域应用提供指导。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 微调 记忆 隐私 成员推理攻击 低秩适应 医疗领域
📋 核心要点
- 现有微调LLM在医疗等隐私敏感领域存在记忆训练数据的风险,可能泄露个人信息。
- 通过成员推理攻击和生成任务,分析Transformer不同权重矩阵、困惑度和LoRA秩对记忆的影响。
- 实验表明Value/Output矩阵更易导致记忆,低困惑度和高LoRA秩会增加记忆,但高秩收益递减。
📝 摘要(中文)
本研究调查了微调大型语言模型(LLM)中的记忆机制和影响因素,重点关注医疗领域,因为该领域对隐私非常敏感。我们研究了微调过程的不同方面如何影响模型记忆训练数据的倾向,使用了药物警戒事件的PHEE数据集。我们的研究采用了两种主要方法:成员推理攻击来检测记忆的数据,以及带有提示前缀的生成任务来评估逐字复制。我们分析了Transformer架构中不同权重矩阵的适应性、困惑度与记忆之间的关系,以及增加低秩适应(LoRA)微调中秩的影响。主要发现包括:(1)Value和Output矩阵比Query和Key矩阵对记忆的贡献更大;(2)微调模型中较低的困惑度与增加的记忆相关;(3)较高的LoRA秩导致记忆增加,但在较高秩时收益递减。这些结果为了解微调LLM中模型性能和隐私风险之间的权衡提供了见解。我们的发现对开发更有效和负责任的策略来调整大型语言模型同时管理数据隐私问题具有重要意义。
🔬 方法详解
问题定义:论文旨在研究微调大型语言模型(LLM)时,模型记忆训练数据的程度以及影响因素。特别关注医疗领域,因为该领域的数据通常包含敏感的个人信息,模型过度记忆可能导致隐私泄露。现有方法缺乏对微调过程中不同参数和策略如何影响模型记忆行为的深入理解,难以在模型性能和数据隐私之间取得平衡。
核心思路:论文的核心思路是通过实验手段,系统性地分析微调过程中不同因素对模型记忆行为的影响。具体而言,通过控制微调过程中的参数(如Transformer的不同权重矩阵、LoRA的秩)和评估指标(如困惑度),观察模型在记忆数据方面的表现。通过成员推理攻击和生成任务来量化模型的记忆程度,从而揭示模型性能和隐私风险之间的权衡关系。
技术框架:论文采用的整体框架包括以下几个主要步骤: 1. 数据准备:使用PHEE数据集,该数据集包含药物警戒事件信息。 2. 模型微调:使用不同的微调策略,例如调整Transformer架构中不同的权重矩阵,以及使用不同秩的LoRA进行微调。 3. 记忆评估:采用两种方法评估模型的记忆程度: - 成员推理攻击:判断给定的数据样本是否属于训练集。 - 生成任务:通过提示前缀,观察模型是否会逐字复制训练数据。 4. 结果分析:分析不同微调策略对模型记忆程度的影响,以及困惑度与记忆之间的关系。
关键创新:论文的关键创新在于: 1. 系统性地研究了微调过程中不同因素对模型记忆行为的影响,而不仅仅是关注整体的记忆程度。 2. 区分了Transformer架构中不同权重矩阵(Value、Output、Query、Key)对记忆的贡献,发现Value和Output矩阵的影响更大。 3. 探讨了LoRA秩对记忆的影响,发现增加LoRA秩会增加记忆,但存在收益递减的现象。 4. 将研究重点放在医疗领域,更具实际意义和应用价值。
关键设计: - 成员推理攻击:使用标准的成员推理攻击方法,通过比较模型对训练集和非训练集样本的预测置信度来判断样本是否属于训练集。 - 生成任务:设计特定的提示前缀,诱导模型生成可能包含记忆数据的文本。通过比较生成文本与训练数据,判断模型是否逐字复制了训练数据。 - LoRA秩:实验中使用了不同的LoRA秩(例如,8、16、32),以观察LoRA秩对记忆的影响。 - 困惑度:使用困惑度作为衡量模型性能的指标,并分析困惑度与记忆之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Transformer的Value和Output矩阵比Query和Key矩阵更容易导致模型记忆训练数据。此外,较低的困惑度与较高的记忆程度相关。增加LoRA的秩可以提高模型性能,但同时也会增加记忆风险,且在高秩时收益递减。这些发现为微调LLM提供了重要的实践指导。
🎯 应用场景
该研究成果可应用于医疗、金融等隐私敏感领域的大型语言模型微调。通过了解不同微调策略对模型记忆行为的影响,可以设计更安全的微调方法,降低隐私泄露风险。有助于开发负责任的AI系统,在模型性能和数据隐私之间取得平衡,促进LLM在各行业的安全应用。
📄 摘要(原文)
This study investigates the mechanisms and factors influencing memorization in fine-tuned large language models (LLMs), with a focus on the medical domain due to its privacy-sensitive nature. We examine how different aspects of the fine-tuning process affect a model's propensity to memorize training data, using the PHEE dataset of pharmacovigilance events. Our research employs two main approaches: a membership inference attack to detect memorized data, and a generation task with prompted prefixes to assess verbatim reproduction. We analyze the impact of adapting different weight matrices in the transformer architecture, the relationship between perplexity and memorization, and the effect of increasing the rank in low-rank adaptation (LoRA) fine-tuning. Key findings include: (1) Value and Output matrices contribute more significantly to memorization compared to Query and Key matrices; (2) Lower perplexity in the fine-tuned model correlates with increased memorization; (3) Higher LoRA ranks lead to increased memorization, but with diminishing returns at higher ranks. These results provide insights into the trade-offs between model performance and privacy risks in fine-tuned LLMs. Our findings have implications for developing more effective and responsible strategies for adapting large language models while managing data privacy concerns.