Prompt Public Large Language Models to Synthesize Data for Private On-device Applications

📄 arXiv: 2404.04360v2 📥 PDF

作者: Shanshan Wu, Zheng Xu, Yanxiang Zhang, Yuanbo Zhang, Daniel Ramage

分类: cs.LG, cs.CL, cs.CR

发布日期: 2024-04-05 (更新: 2024-08-07)

备注: COLM 2024


💡 一句话要点

提出利用大型语言模型合成数据以改善私有设备应用的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 合成数据 差分隐私 联邦学习 用户隐私 模型预训练 数据过滤 智能输入法

📋 核心要点

  1. 现有方法在保护用户隐私的同时,难以获得高质量的训练数据,导致模型性能受限。
  2. 论文提出通过设计LLM提示,过滤和转换公共数据,生成与真实用户数据分布相似的新数据。
  3. 实验结果表明,使用合成数据集预训练的模型在真实用户数据上的性能显著提升,且在生产环境中表现优于基准模型。

📝 摘要(中文)

在联邦学习(FL)与差分隐私(DP)中,基于公共数据的预训练是一种有效提升性能的方法。本文探讨如何利用在公共数据上训练的大型语言模型(LLMs)来改善基于DP和FL的设备端语言模型的预训练数据质量。我们精心设计LLM提示,以过滤和转换现有公共数据,并生成新数据以类似真实用户数据分布。经过我们合成数据集预训练的模型在Gboard(谷歌键盘)上进行的真实用户数据评估中,相较于基准模型在标准公共数据集上预训练,下一词预测准确率分别提高了19.0%和22.8%。此外,在数百万移动设备上的DP FL微调过程中,我们的方法在评估准确率上优于或可与基准相媲美,最终模型在生产A/B测试中超越了基准。我们的实验展示了LLMs在合成接近私有分布的数据方面的优势,即使在未接触私有数据的情况下,同时也为未来进一步缩小分布差距的研究方向提供了建议。

🔬 方法详解

问题定义:本文旨在解决在保护用户隐私的前提下,如何有效获取高质量训练数据的问题。现有方法在使用公共数据进行预训练时,无法充分反映真实用户数据的分布,导致模型性能不足。

核心思路:论文的核心思路是利用大型语言模型(LLMs)合成数据,通过设计特定的提示来过滤和转换公共数据,从而生成与真实用户数据分布相似的新数据。这种方法避免了直接接触私有数据,同时提升了模型的训练质量。

技术框架:整体架构包括数据过滤、转换和合成三个主要模块。首先,通过LLM对公共数据进行过滤,提取出有用的信息;然后,利用LLM生成新的合成数据,最后将这些合成数据用于设备端语言模型的预训练。

关键创新:最重要的技术创新在于通过LLM合成数据的能力,能够在不接触私有数据的情况下,生成接近真实用户数据分布的合成数据。这一方法与传统的依赖真实数据的预训练方法本质上有所区别。

关键设计:在设计中,LLM的提示语是关键参数,通过精心设计的提示,能够有效引导模型生成高质量的合成数据。此外,损失函数和网络结构的选择也经过优化,以确保合成数据的质量和模型的训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用合成数据集预训练的模型在Gboard的真实用户数据上,下一词预测准确率提高了19.0%和22.8%。在DP FL微调过程中,该方法的评估准确率优于或可与基准模型相媲美,最终模型在生产A/B测试中表现出色,验证了其有效性。

🎯 应用场景

该研究的潜在应用领域包括移动设备上的智能输入法、语音助手以及其他需要用户数据的个性化应用。通过合成高质量的训练数据,可以显著提升这些应用的性能,同时保护用户隐私,具有重要的实际价值和未来影响。

📄 摘要(原文)

Pre-training on public data is an effective method to improve the performance for federated learning (FL) with differential privacy (DP). This paper investigates how large language models (LLMs) trained on public data can improve the quality of pre-training data for the on-device language models trained with DP and FL. We carefully design LLM prompts to filter and transform existing public data, and generate new data to resemble the real user data distribution. The model pre-trained on our synthetic dataset achieves relative improvement of 19.0% and 22.8% in next word prediction accuracy compared to the baseline model pre-trained on a standard public dataset, when evaluated over the real user data in Gboard (Google Keyboard, a production mobile keyboard application). Furthermore, our method achieves evaluation accuracy better than or comparable to the baseline during the DP FL fine-tuning over millions of mobile devices, and our final model outperforms the baseline in production A/B testing. Our experiments demonstrate the strengths of LLMs in synthesizing data close to the private distribution even without accessing the private data, and also suggest future research directions to further reduce the distribution gap.