Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs

📄 arXiv: 2503.12347v2 📥 PDF

作者: Bowen Tan, Zheng Xu, Eric Xing, Zhiting Hu, Shanshan Wu

分类: cs.CL

发布日期: 2025-03-16 (更新: 2025-07-17)

备注: Code available at https://github.com/tanyuqian/synthetic-private-data


💡 一句话要点

提出CTCL框架,无需微调大型LLM即可合成保护隐私的文本数据

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 合成数据 文本生成 大型语言模型 隐私保护 数据增强 主题模型

📋 核心要点

  1. 现有方法依赖大型LLM的DP微调或手动设计prompt,前者计算成本高昂,后者无法有效利用私有数据。
  2. CTCL框架预训练轻量级生成器和主题模型,通过DP微调生成器和提取DP直方图来适应私有领域。
  3. 实验表明,CTCL在多个领域有效,尤其在强隐私保护下,且消融实验验证了各组件的有效性。

📝 摘要(中文)

合成数据为训练模型同时保护数据隐私提供了一条有希望的途径。对大型语言模型(LLM)进行差分隐私(DP)微调作为数据生成器是有效的,但当计算资源有限时是不切实际的。同时,诸如私有进化等基于提示的方法严重依赖于手动提示,并且在其迭代数据选择过程中不能有效地利用私有信息。为了克服这些限制,我们提出了CTCL(具有可控性和聚类的数据合成),这是一个新颖的框架,用于生成保护隐私的合成数据,而无需广泛的提示工程或数十亿规模的LLM微调。CTCL在大型公共数据上预训练一个轻量级的1.4亿参数条件生成器和一个基于聚类的主题模型。为了进一步适应私有领域,生成器在私有数据上进行DP微调以获得细粒度的文本信息,而主题模型提取表示分布信息的DP直方图。然后,DP生成器根据DP直方图进行采样,以合成所需数量的数据示例。在五个不同领域的评估证明了我们框架的有效性,尤其是在强隐私机制下。系统的消融实验验证了每个框架组件的设计,并突出了我们方法的可扩展性。

🔬 方法详解

问题定义:论文旨在解决在计算资源有限的情况下,如何生成既能保护数据隐私又能有效训练模型的合成文本数据的问题。现有方法,如直接对大型LLM进行差分隐私微调,计算成本过高;而基于prompt的方法,依赖人工设计的prompt,且无法充分利用私有数据中的信息。

核心思路:论文的核心思路是利用一个轻量级的条件生成器和一个基于聚类的主题模型,在公共数据上进行预训练,然后通过差分隐私技术,将私有数据中的信息融入到生成器和主题模型中,最后利用生成器和主题模型生成合成数据。这样既避免了对大型LLM进行微调,又能够有效地利用私有数据。

技术框架:CTCL框架包含以下几个主要模块:1) 轻量级条件生成器:用于生成文本数据;2) 基于聚类的主题模型:用于提取文本数据的主题分布;3) 差分隐私微调模块:用于将私有数据中的信息融入到生成器中;4) 差分隐私直方图提取模块:用于提取私有数据的主题分布;5) 合成数据生成模块:根据DP直方图,利用DP生成器生成合成数据。

关键创新:该论文的关键创新在于提出了一个无需微调大型LLM,而是通过预训练轻量级生成器和主题模型,并结合差分隐私技术,来生成保护隐私的合成数据。与现有方法相比,该方法计算成本更低,且能够更有效地利用私有数据。

关键设计:生成器是一个1.4亿参数的条件语言模型,使用标准的Transformer架构。主题模型使用K-means聚类算法对文本数据进行聚类,然后计算每个簇的词频分布。差分隐私微调使用DP-SGD算法。DP直方图通过添加拉普拉斯噪声来保证差分隐私。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CTCL框架在五个不同的文本领域都取得了良好的性能,尤其是在强隐私保护设置下。与基线方法相比,CTCL在数据效用性方面取得了显著提升,同时保证了较强的隐私保护。消融实验验证了CTCL框架中各个组件的有效性,证明了该框架设计的合理性。

🎯 应用场景

该研究成果可应用于医疗、金融等对数据隐私要求较高的领域,用于生成合成数据以训练模型,从而在保护用户隐私的前提下,提升模型的性能。例如,可以利用该方法生成合成的医疗记录,用于训练疾病诊断模型,或者生成合成的金融交易数据,用于训练反欺诈模型。该方法还有助于解决数据稀缺问题,促进人工智能技术在各个领域的应用。

📄 摘要(原文)

Synthetic data offers a promising path to train models while preserving data privacy. Differentially private (DP) finetuning of large language models (LLMs) as data generator is effective, but is impractical when computation resources are limited. Meanwhile, prompt-based methods such as private evolution depend heavily on the manual prompts, and ineffectively use private information in their iterative data selection process. To overcome these limitations, we propose CTCL (Data Synthesis with ConTrollability and CLustering), a novel framework for generating privacy-preserving synthetic data without extensive prompt engineering or billion-scale LLM finetuning. CTCL pretrains a lightweight 140M conditional generator and a clustering-based topic model on large-scale public data. To further adapt to the private domain, the generator is DP finetuned on private data for fine-grained textual information, while the topic model extracts a DP histogram representing distributional information. The DP generator then samples according to the DP histogram to synthesize a desired number of data examples. Evaluation across five diverse domains demonstrates the effectiveness of our framework, particularly in the strong privacy regime. Systematic ablation validates the design of each framework component and highlights the scalability of our approach.