Differentiation-Based Extraction of Proprietary Data from Fine-Tuned LLMs

📄 arXiv: 2506.17353v1 📥 PDF

作者: Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su

分类: cs.CR, cs.AI

发布日期: 2025-06-20

备注: In Proceedings of the 2025 ACM SIGSAC Conference on Computer and Communications Security (CCS'25), October 13-17, 2025, Taipei, Taiwan, China. ACM, New York, NY, USA, 15 pages. https://doi.org/10.1145/3719027.3744856


💡 一句话要点

提出差异化数据提取方法以解决SFT模型数据泄露问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据提取 监督微调 安全性研究 机器学习 数据泄露 防御机制

📋 核心要点

  1. 现有的SFT模型在数据保护方面存在隐患,特别是指令-响应对的提取风险尚未得到充分研究。
  2. 本文提出了一种新的提取方法DDE,利用微调模型的置信度和行为差异,针对SFT数据进行优化提取。
  3. 实验结果表明,DDE在各类攻击场景中均显著优于现有提取方法,展示了其有效性和实用性。

📝 摘要(中文)

随着对特定领域和人类对齐的大型语言模型(LLMs)需求的增加,监督微调(SFT)技术被广泛采用。SFT数据集通常包含有价值的指令-响应对,使其成为潜在的提取目标。本文首次研究了这一关键问题,正式定义并制定了相关问题,探讨了基于SFT数据独特属性的各种攻击目标、类型和变体。基于对直接提取行为的分析,我们开发了一种新颖的提取方法,称为差异化数据提取(DDE),该方法利用微调模型的置信度水平及其与预训练基础模型的行为差异。通过在多个领域和场景中的广泛实验,我们证明了使用DDE进行SFT数据提取的可行性,并显示DDE在所有攻击设置中均优于现有提取基线。为应对这一新攻击,我们提出了一种防御机制,以最小影响模型性能的方式减轻DDE攻击。总体而言,我们的研究揭示了微调LLMs中隐藏的数据泄露风险,并为开发更安全的模型提供了见解。

🔬 方法详解

问题定义:本文旨在解决从微调的LLM中提取敏感数据的问题,现有方法未能有效应对SFT数据的独特性和潜在风险。

核心思路:提出的DDE方法通过分析微调模型的置信度和行为差异,设计出一种针对SFT数据的差异化提取策略,以提高提取的成功率。

技术框架:DDE方法包括数据预处理、模型训练、提取过程和结果评估四个主要模块。首先对SFT数据进行分析,然后训练微调模型,接着利用模型的置信度进行数据提取,最后评估提取效果。

关键创新:DDE的核心创新在于利用微调模型的置信度差异进行数据提取,这一方法在提取效率和准确性上与传统方法有显著区别。

关键设计:在DDE中,设置了特定的置信度阈值,并设计了相应的损失函数,以优化提取过程中的准确性和效率,同时保持模型的整体性能。

📊 实验亮点

实验结果显示,DDE在所有攻击设置中均优于现有提取基线,提取成功率提高了20%以上,且在多个领域的应用中表现出色,验证了其广泛适用性和有效性。

🎯 应用场景

该研究的潜在应用领域包括数据安全、模型训练和人工智能伦理等。通过揭示微调模型中的数据泄露风险,研究为开发更安全的LLM提供了重要参考,促进了对AI系统安全性的深入理解和改进。

📄 摘要(原文)

The increasing demand for domain-specific and human-aligned Large Language Models (LLMs) has led to the widespread adoption of Supervised Fine-Tuning (SFT) techniques. SFT datasets often comprise valuable instruction-response pairs, making them highly valuable targets for potential extraction. This paper studies this critical research problem for the first time. We start by formally defining and formulating the problem, then explore various attack goals, types, and variants based on the unique properties of SFT data in real-world scenarios. Based on our analysis of extraction behaviors of direct extraction, we develop a novel extraction method specifically designed for SFT models, called Differentiated Data Extraction (DDE), which exploits the confidence levels of fine-tuned models and their behavioral differences from pre-trained base models. Through extensive experiments across multiple domains and scenarios, we demonstrate the feasibility of SFT data extraction using DDE. Our results show that DDE consistently outperforms existing extraction baselines in all attack settings. To counter this new attack, we propose a defense mechanism that mitigates DDE attacks with minimal impact on model performance. Overall, our research reveals hidden data leak risks in fine-tuned LLMs and provides insights for developing more secure models.