Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
作者: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Yuanchao Zhang, Hongning Wang, Minlie Huang
分类: cs.CL
发布日期: 2026-04-06
💡 一句话要点
揭示微调开源LLM的数据泄露风险:攻击者可通过后门提取微调数据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 微调 数据泄露 后门攻击 安全风险
📋 核心要点
- 现有方法在开源LLM上进行微调时,忽略了潜在的数据泄露风险,即模型创建者可能通过后门提取微调数据。
- 论文提出一种后门攻击方法,攻击者无需访问微调过程,仅通过黑盒查询即可提取下游模型的私有数据。
- 实验表明,该攻击在多个开源LLM和下游数据集上表现出色,成功提取了大量微调数据,突显了数据泄露的严重性。
📝 摘要(中文)
本文揭示了一个令人担忧的新风险:在使用专有数据微调开源大型语言模型(LLM)时,开源LLM的创建者可以通过简单的后门训练提取下游微调数据,且仅需黑盒访问微调后的下游模型。作者在3B到32B参数的4个常用开源模型和2个下游数据集上进行了全面实验,结果表明提取性能非常高:在实际设置中,可以完美提取总共5000个样本中高达76.3%的下游微调数据(查询),在更理想的设置中,成功率可以提高到94.9%。作者还探索了一种基于检测的防御策略,但发现可以通过改进的攻击来绕过它。总而言之,本文强调了微调中这种新发现的数据泄露风险的紧迫性,并希望更多的后续研究能够推动解决这一令人担忧的风险。
🔬 方法详解
问题定义:论文关注的问题是,当开发者使用私有数据微调开源大型语言模型(LLM)时,存在数据泄露的风险。具体来说,开源LLM的创建者可能通过某种方式,在不需要访问微调过程的情况下,从微调后的模型中提取出用于微调的私有数据。现有方法没有充分考虑到这种潜在的攻击方式,因此存在安全隐患。
核心思路:论文的核心思路是,攻击者可以在开源LLM中植入后门,该后门在正常的预训练或微调过程中不会被激活,但在特定的触发条件下,可以用于提取微调数据。攻击者通过精心设计的触发词或输入模式,诱导微调后的模型输出与微调数据相关的信息,从而实现数据提取。这种攻击方式的优势在于,它只需要黑盒访问微调后的模型,无需了解微调过程的细节。
技术框架:攻击框架主要包含以下几个阶段:1) 后门植入:攻击者在开源LLM的预训练阶段或发布前,通过某种方式植入后门。2) 触发条件设计:攻击者设计特定的触发词或输入模式,这些触发条件能够激活后门,使模型输出与微调数据相关的信息。3) 数据提取:攻击者通过黑盒查询微调后的模型,输入触发条件,并分析模型的输出,从而提取出微调数据。4) 防御绕过:针对现有的防御策略,设计更隐蔽的攻击方式,例如使用更复杂的触发条件或对抗样本。
关键创新:论文的关键创新在于,它揭示了一种新的数据泄露风险,即开源LLM的创建者可以通过后门提取下游微调数据。这种攻击方式具有隐蔽性强、攻击成本低等特点,对下游开发者的数据安全构成严重威胁。此外,论文还提出了一种基于检测的防御策略,但发现可以通过改进的攻击来绕过它,表明防御难度较高。
关键设计:论文中涉及的关键设计包括:1) 后门植入方式:具体植入方式未知,但推测可能通过在预训练数据中加入特定的模式或修改模型参数来实现。2) 触发条件设计:触发条件的选择至关重要,需要保证能够激活后门,同时避免引起下游开发者的注意。3) 数据提取方法:数据提取方法需要能够从模型的输出中准确地提取出微调数据,可能需要使用一些自然语言处理技术。4) 损失函数:在后门训练阶段,可能需要设计特定的损失函数,以保证后门能够有效地激活。
📊 实验亮点
实验结果表明,攻击者可以成功提取大量下游微调数据。在实际设置中,可以完美提取总共5000个样本中高达76.3%的下游微调数据(查询),在更理想的设置中,成功率可以提高到94.9%。此外,作者还发现现有的防御策略容易被绕过,表明该攻击具有很强的威胁性。
🎯 应用场景
该研究成果对所有使用开源LLM进行微调的开发者具有重要意义。它提醒开发者在使用开源模型时,需要警惕潜在的数据泄露风险,并采取相应的安全措施,例如数据脱敏、模型安全评估等。此外,该研究也为开源LLM的安全性研究提供了新的方向,可以促进开发更安全的开源模型。
📄 摘要(原文)
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data is now a standard practice for downstream developers to obtain task-specific LLMs. Surprisingly, we reveal a new and concerning risk along with the practice: the creator of the open-source LLMs can later extract the private downstream fine-tuning data through simple backdoor training, only requiring black-box access to the fine-tuned downstream model. Our comprehensive experiments, across 4 popularly used open-source models with 3B to 32B parameters and 2 downstream datasets, suggest that the extraction performance can be strikingly high: in practical settings, as much as 76.3% downstream fine-tuning data (queries) out of a total 5,000 samples can be perfectly extracted, and the success rate can increase to 94.9% in more ideal settings. We also explore a detection-based defense strategy but find it can be bypassed with improved attack. Overall, we highlight the emergency of this newly identified data breaching risk in fine-tuning, and we hope that more follow-up research could push the progress of addressing this concerning risk. The code and data used in our experiments are released atthis https URL.