Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

📄 arXiv: 2505.15656v1 📥 PDF

作者: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang

分类: cs.CL

发布日期: 2025-05-21

备注: 19 pages

🔗 代码/项目: GITHUB


💡 一句话要点

揭示微调开源LLM的数据泄露风险:攻击者可通过后门提取微调数据

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微调 数据泄露 后门攻击 安全风险

📋 核心要点

  1. 下游开发者使用专有数据微调开源LLM已成为常态,但存在数据泄露风险,即模型创建者可能窃取微调数据。
  2. 论文提出一种后门攻击方法,攻击者无需访问微调过程,仅通过黑盒访问微调后的模型即可提取私有数据。
  3. 实验表明,该方法在实际场景中可成功提取高达76.3%的微调数据,理想情况下甚至可达94.9%,凸显了风险的严重性。

📝 摘要(中文)

本文揭示了一个令人担忧的新风险:开源大型语言模型(LLM)的创建者可以通过简单的后门训练来提取下游开发者使用专有数据微调后的模型中的私有数据,而只需黑盒访问微调后的下游模型。通过对3B到32B参数的4个常用开源模型和2个下游数据集进行全面实验,结果表明提取性能非常高:在实际设置中,可以完美提取总共5,000个样本中高达76.3%的下游微调数据(查询),在更理想的设置中,成功率可以提高到94.9%。研究还探索了一种基于检测的防御策略,但发现可以通过改进的攻击来绕过它。总而言之,本文强调了微调中这种新发现的数据泄露风险的紧迫性,并希望更多的后续研究能够推动解决这一令人担忧的风险。

🔬 方法详解

问题定义:论文旨在解决开源LLM微调过程中存在的潜在数据泄露问题。现有方法无法有效防止模型创建者通过后门方式提取下游开发者用于微调的私有数据,这使得下游开发者面临严重的数据安全风险。

核心思路:论文的核心思路是利用后门攻击,在开源LLM中植入特定的触发器。当使用包含这些触发器的输入查询微调模型后,攻击者可以通过构造特定的输入,从微调后的模型中提取出用于微调的私有数据。这种攻击方式无需访问微调过程,仅需黑盒访问微调后的模型即可实现。

技术框架:该攻击框架主要包含两个阶段:后门植入阶段和数据提取阶段。在后门植入阶段,攻击者在开源LLM中插入特定的触发器,这些触发器与特定的输出相关联。在数据提取阶段,攻击者利用这些触发器,通过构造特定的输入查询微调后的模型,观察模型的输出,从而推断出用于微调的私有数据。

关键创新:该论文的关键创新在于揭示了开源LLM微调过程中存在的这种新型数据泄露风险,并提出了一种有效的后门攻击方法。与传统的后门攻击不同,该方法不需要访问模型的训练过程,仅需黑盒访问微调后的模型即可实现数据提取。

关键设计:论文中,触发器的选择和后门植入的方式是关键设计。触发器需要足够隐蔽,以避免被下游开发者发现。后门植入的方式需要保证在不影响模型正常功能的前提下,能够有效地提取私有数据。此外,论文还探索了一种基于检测的防御策略,但发现可以通过改进的攻击来绕过它。具体的参数设置、损失函数、网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在实际场景中,攻击者可以成功提取高达76.3%的下游微调数据(查询),在更理想的设置中,成功率可以提高到94.9%。这些结果表明,开源LLM微调过程中存在严重的数据泄露风险,需要引起高度重视。此外,研究还发现,现有的基于检测的防御策略难以有效防御这种攻击。

🎯 应用场景

该研究成果对开源LLM的使用和安全具有重要意义。下游开发者在微调开源LLM时需要更加谨慎,采取有效的安全措施,以防止私有数据泄露。同时,该研究也为开源LLM的开发者敲响了警钟,需要加强对模型的安全审计,防止恶意用户利用后门攻击窃取数据。该研究可以应用于安全评估、隐私保护等领域。

📄 摘要(原文)

Fine-tuning on open-source Large Language Models (LLMs) with proprietary data is now a standard practice for downstream developers to obtain task-specific LLMs. Surprisingly, we reveal a new and concerning risk along with the practice: the creator of the open-source LLMs can later extract the private downstream fine-tuning data through simple backdoor training, only requiring black-box access to the fine-tuned downstream model. Our comprehensive experiments, across 4 popularly used open-source models with 3B to 32B parameters and 2 downstream datasets, suggest that the extraction performance can be strikingly high: in practical settings, as much as 76.3% downstream fine-tuning data (queries) out of a total 5,000 samples can be perfectly extracted, and the success rate can increase to 94.9% in more ideal settings. We also explore a detection-based defense strategy but find it can be bypassed with improved attack. Overall, we highlight the emergency of this newly identified data breaching risk in fine-tuning, and we hope that more follow-up research could push the progress of addressing this concerning risk. The code and data used in our experiments are released at https://github.com/thu-coai/Backdoor-Data-Extraction.