DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts

📄 arXiv: 2408.08930v1 📥 PDF

作者: Xiongtao Sun, Gan Liu, Zhipeng He, Hui Li, Xiaoguang Li

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-08-16


💡 一句话要点

提出DePrompt框架,用于大语言模型提示词的PII脱敏与有效性评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 提示词工程 个人身份信息 隐私保护 脱敏 对抗生成网络 效用评估

📋 核心要点

  1. 现有方法难以在保证提示词质量的同时,有效防止大语言模型交互中个人身份信息(PII)泄露的风险。
  2. DePrompt框架通过微调大模型进行隐私保护,结合上下文属性识别PII,并使用对抗生成方法进行脱敏,保留语义信息。
  3. 实验表明,DePrompt框架脱敏后的提示词在隐私保护和模型推理结果方面均优于其他方法。

📝 摘要(中文)

本文提出DePrompt框架,旨在为大语言模型(LLM)提示词提供脱敏保护和有效性评估,使用户能够安全透明地利用LLM。该框架利用大模型微调技术作为底层隐私保护方法,结合上下文属性定义隐私类型,实现高精度PII实体识别。通过分析提示词脱敏场景中的关键特征,设计对抗生成脱敏方法,在保留重要语义内容的同时,破坏标识符和隐私属性之间的联系。此外,提出了提示词的效用评估指标,以更好地衡量和平衡隐私和可用性。该框架适用于各种提示词,并可扩展到文本可用性相关的场景。实验结果表明,与基准方法和其他模型方法相比,脱敏后的提示词具有更好的隐私保护效用和模型推理结果。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)提示词中个人身份信息(PII)泄露的问题。现有的方法要么无法有效识别和脱敏PII,要么在脱敏过程中损失了过多的语义信息,导致LLM无法给出准确和高质量的回复。因此,如何在保护用户隐私的同时,保证提示词的可用性是一个关键挑战。

核心思路:论文的核心思路是利用大模型微调技术作为底层隐私保护方法,并结合上下文信息进行高精度的PII识别。同时,设计对抗生成脱敏方法,在保留重要语义内容的前提下,破坏标识符和隐私属性之间的联系。通过这种方式,可以在最大程度上保护用户隐私,同时保证提示词的可用性。

技术框架:DePrompt框架主要包含三个模块:1) PII实体识别模块,利用微调的大模型结合上下文属性识别提示词中的PII;2) 对抗生成脱敏模块,通过对抗生成网络生成脱敏后的提示词,该模块旨在保留语义信息,同时移除PII;3) 效用评估模块,用于评估脱敏后提示词的可用性,并平衡隐私和可用性。整体流程是:首先识别提示词中的PII,然后使用对抗生成脱敏模块进行脱敏,最后使用效用评估模块评估脱敏效果。

关键创新:论文的关键创新在于提出了一个完整的提示词脱敏和评估框架,该框架不仅能够高精度地识别和脱敏PII,还能够有效地保留提示词的语义信息。此外,论文还提出了针对提示词的效用评估指标,可以更好地衡量和平衡隐私和可用性。对抗生成脱敏方法是另一个创新点,它能够生成高质量的脱敏提示词,避免了传统脱敏方法带来的语义损失。

关键设计:在PII实体识别模块中,使用了基于上下文属性的隐私类型定义,提高了识别精度。在对抗生成脱敏模块中,使用了对抗损失和语义保持损失,以保证脱敏后的提示词既能保护隐私,又能保留语义信息。效用评估模块使用了多种指标,包括模型推理结果的准确性和流畅性等。具体的损失函数和网络结构细节在论文中有详细描述,但此处不赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DePrompt框架在提示词脱敏方面表现出色,与基准方法相比,在隐私保护方面取得了显著提升,同时保证了模型推理结果的准确性和流畅性。具体而言,DePrompt框架在保护隐私的同时,能够使LLM生成更准确和有用的回复,优于其他脱敏方法。

🎯 应用场景

DePrompt框架可应用于各种需要与大语言模型交互的场景,例如智能客服、内容生成、代码生成等。通过该框架,用户可以安全地使用LLM,而无需担心个人身份信息泄露的风险。该研究对于推动LLM在隐私敏感领域的应用具有重要意义,并有望促进LLM技术的普及和发展。

📄 摘要(原文)

Prompt serves as a crucial link in interacting with large language models (LLMs), widely impacting the accuracy and interpretability of model outputs. However, acquiring accurate and high-quality responses necessitates precise prompts, which inevitably pose significant risks of personal identifiable information (PII) leakage. Therefore, this paper proposes DePrompt, a desensitization protection and effectiveness evaluation framework for prompt, enabling users to safely and transparently utilize LLMs. Specifically, by leveraging large model fine-tuning techniques as the underlying privacy protection method, we integrate contextual attributes to define privacy types, achieving high-precision PII entity identification. Additionally, through the analysis of key features in prompt desensitization scenarios, we devise adversarial generative desensitization methods that retain important semantic content while disrupting the link between identifiers and privacy attributes. Furthermore, we present utility evaluation metrics for prompt to better gauge and balance privacy and usability. Our framework is adaptable to prompts and can be extended to text usability-dependent scenarios. Through comparison with benchmarks and other model methods, experimental evaluations demonstrate that our desensitized prompt exhibit superior privacy protection utility and model inference results.