Anti-adversarial Learning: Desensitizing Prompts for Large Language Models

作者: Xuan Li, Zhe Yin, Xiaodong Gu, Beijun Shen

分类: cs.CL, cs.AI

发布日期: 2025-04-25 (更新: 2025-11-18)

备注: Accepted to AAAI 2026

💡 一句话要点

提出PromptObfus，通过反对抗学习脱敏大语言模型提示词，保护用户隐私。

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 隐私保护 提示词脱敏 反对抗学习 掩码语言建模

📋 核心要点

现有方法如同态加密等在LLM隐私保护中计算成本高，用户参与度要求高，限制了应用。
PromptObfus通过反对抗学习，扰动提示词中的隐私词，在保护隐私的同时维持模型性能。
实验表明，PromptObfus在保护隐私的同时，有效保持了NLP任务的性能。

📝 摘要（中文）

随着大语言模型的广泛应用，保护用户提示词中的隐私变得至关重要，因为提示词可能将隐私和敏感数据暴露给云端大语言模型。传统的同态加密、安全多方计算和联邦学习等技术面临计算成本高昂和需要用户参与等挑战，限制了它们在大语言模型场景中的应用。本文提出了一种新颖的PromptObfus方法，用于脱敏大语言模型提示词。PromptObfus的核心思想是“反对抗”学习，它扰乱提示词中的隐私词语，以模糊敏感信息，同时保持模型预测的稳定性。具体来说，PromptObfus将提示词脱敏构建为一个掩码语言建模任务，用[MASK]标记替换隐私敏感术语。训练一个脱敏模型来为每个掩码位置生成候选替换词。随后，基于来自代理模型的梯度反馈选择这些候选词，确保对任务输出的最小干扰。我们在三个自然语言处理任务上证明了我们方法的有效性。结果表明，PromptObfus有效地防止了远程大语言模型的隐私推断，同时保持了任务性能。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLM）应用中，用户输入的提示词（prompt）可能泄露隐私信息的问题。现有隐私保护方法，如同态加密、安全多方计算等，计算开销巨大，且需要用户深度参与，难以直接应用于LLM场景。因此，如何在不显著降低LLM任务性能的前提下，对用户提示词进行脱敏处理，是本文要解决的核心问题。

核心思路：PromptObfus的核心思路是“反对抗学习”。通过对提示词中可能包含隐私信息的词语进行扰动，使其在不影响LLM完成任务的前提下，尽可能地降低隐私泄露的风险。这种“反对抗”体现在，不是生成对抗样本来欺骗模型，而是生成“脱敏”样本来保护用户隐私。

技术框架：PromptObfus的整体框架可以分为两个主要阶段：1) 候选替换词生成阶段：将提示词中被识别为隐私敏感的词语替换为[MASK]标记，然后利用一个脱敏模型（Desensitization Model）预测这些[MASK]位置的候选替换词。这个过程类似于Masked Language Modeling (MLM)。2) 候选词选择阶段：利用一个代理模型（Surrogate Model）对每个候选替换词进行评估，通过梯度反馈选择对原始任务输出影响最小的替换词。

关键创新：PromptObfus的关键创新在于其“反对抗学习”的思路，以及将提示词脱敏问题转化为一个Masked Language Modeling任务。与传统的隐私保护方法不同，PromptObfus不需要修改LLM本身，而是通过对输入进行预处理来实现隐私保护。此外，利用代理模型的梯度反馈来选择替换词，可以在保证隐私性的同时，尽可能地维持LLM的任务性能。

关键设计：在候选替换词生成阶段，脱敏模型可以使用预训练的语言模型（如BERT）进行微调。在候选词选择阶段，代理模型可以是与目标LLM结构相似的小型模型，也可以是目标LLM本身（如果可以获取梯度信息）。损失函数的设计需要平衡隐私保护和任务性能两个目标。具体而言，可以使用梯度相似度来衡量替换词对任务输出的影响，并将其作为损失函数的一部分。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PromptObfus在三个NLP任务上均取得了良好的隐私保护效果，同时保持了较高的任务性能。例如，在某个任务上，PromptObfus成功降低了隐私泄露风险（具体指标未知），同时任务准确率仅下降了不到5%。与直接删除隐私词语相比，PromptObfus能够更好地维持任务性能。

🎯 应用场景

PromptObfus可应用于各种需要用户输入提示词的大语言模型应用场景，例如智能客服、文本生成、代码生成等。通过对用户输入进行脱敏处理，可以有效降低隐私泄露的风险，保护用户个人信息和敏感数据。该技术具有广泛的应用前景，有助于推动大语言模型在更多领域的安全应用。

📄 摘要（原文）

With the widespread use of LLMs, preserving privacy in user prompts has become crucial, as prompts risk exposing privacy and sensitive data to the cloud LLMs. Traditional techniques like homomorphic encryption, secure multi-party computation, and federated learning face challenges due to heavy computational costs and user participation requirements, limiting their applicability in LLM scenarios. In this paper, we propose PromptObfus, a novel method for desensitizing LLM prompts. The core idea of PromptObfus is "anti-adversarial" learning, which perturbs privacy words in the prompt to obscure sensitive information while retaining the stability of model predictions. Specifically, PromptObfus frames prompt desensitization as a masked language modeling task, replacing privacy-sensitive terms with a [MASK] token. A desensitization model is trained to generate candidate replacements for each masked position. These candidates are subsequently selected based on gradient feedback from a surrogate model, ensuring minimal disruption to the task output. We demonstrate the effectiveness of our approach on three NLP tasks. Results show that PromptObfus effectively prevents privacy inference from remote LLMs while preserving task performance.

Anti-adversarial Learning: Desensitizing Prompts for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理