Locally Differentially Private In-Context Learning

📄 arXiv: 2405.04032v2 📥 PDF

作者: Chunyan Zheng, Keke Sun, Wenhao Zhao, Haibo Zhou, Lixin Jiang, Shaoyang Song, Chunlai Zhou

分类: cs.CR, cs.AI

发布日期: 2024-05-07 (更新: 2024-05-08)

备注: This paper was published at LREC-Coling 2024


💡 一句话要点

提出LDP-ICL框架,解决LLM在上下文学习中数据隐私泄露问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 局部差分隐私 上下文学习 大型语言模型 隐私保护 成员推理攻击

📋 核心要点

  1. 大型语言模型易受隐私攻击,直接应用存在风险,尤其是在处理敏感数据时。
  2. 论文提出局部差分隐私上下文学习框架LDP-ICL,在保证隐私的前提下利用LLM的ICL能力。
  3. 实验验证了LDP-ICL在分类和离散分布估计任务中的有效性,并分析了隐私与效用的权衡。

📝 摘要(中文)

大型预训练语言模型(LLMs)展现了惊人的上下文学习(ICL)能力。将LLMs与私有数据库结合以完成特定任务是其重要的商业应用。然而,LLMs存在记忆训练数据的问题,并且其prompt数据容易受到成员推理攻击(MIA)和prompt泄露攻击。为了解决这个问题,我们将LLMs视为隐私方面不可信的,并提出了一个局部差分隐私的上下文学习框架(LDP-ICL),尤其是在标签敏感的场景下。考虑到Transformer中上下文学习通过梯度下降实现的机制,我们分析了分类任务中LDP-ICL的隐私性和效用之间的权衡。此外,我们将LDP-ICL应用于离散分布估计问题。最后,我们进行了一些实验来验证我们的分析结果。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在上下文学习(ICL)中存在的隐私泄露问题。现有方法直接将LLMs应用于包含敏感数据的任务,容易受到成员推理攻击(MIA)和prompt泄露攻击,导致数据隐私泄露。因此,如何在利用LLMs的ICL能力的同时,保护用户数据的隐私成为一个关键挑战。

核心思路:论文的核心思路是在上下文学习过程中引入局部差分隐私(LDP)机制。通过在本地对敏感数据进行扰动,使得即使LLM记住了训练数据或prompt数据,也无法推断出用户的真实信息。这种方法将LLM视为不可信的第三方,从根本上保护了用户数据的隐私。

技术框架:LDP-ICL框架主要包含以下几个阶段:1) 数据收集:用户在本地收集包含敏感信息的数据。2) 局部扰动:用户使用LDP机制对本地数据进行扰动,例如添加噪声。3) 上下文构建:将扰动后的数据作为上下文示例,构建prompt。4) LLM推理:将prompt输入LLM,进行上下文学习和推理。5) 结果输出:LLM输出推理结果,用户获得最终结果。

关键创新:论文的关键创新在于将局部差分隐私(LDP)与上下文学习(ICL)相结合,提出了一种新的隐私保护框架LDP-ICL。与传统的差分隐私方法不同,LDP在数据收集端进行扰动,避免了中心化的数据收集和处理,从而更好地保护了用户隐私。此外,论文还分析了LDP-ICL在分类任务中的隐私性和效用之间的权衡。

关键设计:论文的关键设计包括:1) 针对不同类型的敏感数据,选择合适的LDP机制,例如添加拉普拉斯噪声或高斯噪声。2) 设计合适的prompt模板,将扰动后的数据以自然语言的形式融入prompt中。3) 分析LDP参数(例如噪声尺度)对模型性能的影响,并根据实际需求进行调整。4) 针对分类任务,设计特定的损失函数,以优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了LDP-ICL框架在分类和离散分布估计任务中的有效性。实验结果表明,在保证一定隐私水平的前提下,LDP-ICL仍然可以取得较好的性能。例如,在某个分类任务中,通过设置合适的隐私参数,LDP-ICL可以在保证ε=1的差分隐私水平下,达到与非隐私保护方法相近的准确率。此外,实验还验证了隐私预算与模型性能之间的权衡关系。

🎯 应用场景

LDP-ICL框架可应用于各种需要保护用户隐私的场景,例如医疗诊断、金融风控、个性化推荐等。通过该框架,可以在利用LLMs的强大能力的同时,有效防止用户数据泄露,从而促进LLMs在隐私敏感领域的应用。未来,该框架可以进一步扩展到其他机器学习任务和模型中,为构建安全可靠的人工智能系统提供技术支撑。

📄 摘要(原文)

Large pretrained language models (LLMs) have shown surprising In-Context Learning (ICL) ability. An important application in deploying large language models is to augment LLMs with a private database for some specific task. The main problem with this promising commercial use is that LLMs have been shown to memorize their training data and their prompt data are vulnerable to membership inference attacks (MIA) and prompt leaking attacks. In order to deal with this problem, we treat LLMs as untrusted in privacy and propose a locally differentially private framework of in-context learning(LDP-ICL) in the settings where labels are sensitive. Considering the mechanisms of in-context learning in Transformers by gradient descent, we provide an analysis of the trade-off between privacy and utility in such LDP-ICL for classification. Moreover, we apply LDP-ICL to the discrete distribution estimation problem. In the end, we perform several experiments to demonstrate our analysis results.