LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage

📄 arXiv: 2412.05734v2 📥 PDF

作者: Yuzhou Nie, Zhun Wang, Ye Yu, Xian Wu, Xuandong Zhao, Wenbo Guo, Dawn Song

分类: cs.CR, cs.AI, cs.LG

发布日期: 2024-12-07 (更新: 2025-08-08)

备注: Accepted by COLM 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出LeakAgent,一种基于强化学习的LLM隐私泄露红队测试框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 隐私泄露 红队测试 强化学习 对抗性提示

📋 核心要点

  1. 现有红队测试方法在LLM隐私泄露方面存在不足,人工方法效率低,自动化方法侧重于系统提示提取,忽略了训练数据泄露的风险。
  2. LeakAgent利用强化学习训练攻击代理,生成对抗性提示,从而实现对LLM训练数据和系统提示的有效提取。
  3. 实验表明,LeakAgent在训练数据提取和系统提示泄露方面均优于现有方法,并能有效规避防御机制,提升LLM安全性。

📝 摘要(中文)

最近的研究发现,大型语言模型(LLM)可能会在精心设计的对抗性提示下,泄露包括训练数据、系统提示和个人身份信息在内的私有信息。现有的隐私泄露红队测试方法要么依赖于人工,要么只关注系统提示提取,对于严重的训练数据泄露风险无效。我们提出了LeakAgent,一种新颖的LLM隐私泄露黑盒红队测试框架。我们的框架通过强化学习训练一个开源LLM作为攻击代理,生成用于训练数据提取和系统提示提取的对抗性提示。为此,我们提出了一种新颖的奖励函数,以提供有效和细粒度的奖励,并设计了新颖的机制来平衡学习过程中的探索和利用,并增强对抗性提示的多样性。通过广泛的评估,我们首先表明LeakAgent在训练数据提取方面显著优于现有的基于规则的方法,在系统提示泄露方面优于自动化方法。我们还证明了LeakAgent在从OpenAI的GPT商店中的真实应用程序中提取系统提示方面的有效性。我们进一步证明了LeakAgent在规避现有防御措施方面的有效性,以及它在实现更好的安全对齐方面的帮助。最后,我们通过详细的消融研究验证了我们的定制设计。我们在此发布我们的代码https://github.com/rucnyz/LeakAgent。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中存在的隐私泄露问题,包括训练数据泄露和系统提示泄露。现有方法,如人工红队测试效率低下,且难以覆盖所有可能的攻击场景。自动化方法通常只关注系统提示提取,忽略了更严重的训练数据泄露风险。因此,需要一种更有效、更全面的自动化红队测试方法来评估和缓解LLM的隐私风险。

核心思路:论文的核心思路是利用强化学习(RL)训练一个攻击代理(LeakAgent),使其能够自动生成对抗性提示,从而诱导LLM泄露敏感信息。通过将攻击过程建模为马尔可夫决策过程(MDP),LeakAgent能够学习到最优的攻击策略,从而最大化隐私泄露的可能性。这种方法能够自动化地探索各种攻击场景,并发现潜在的隐私漏洞。

技术框架:LeakAgent的整体框架包括以下几个主要模块:1) LLM目标模型:待测试的LLM,作为攻击的目标。2) 攻击代理:基于开源LLM(例如,LLaMA)构建的强化学习代理,负责生成对抗性提示。3) 奖励函数:用于评估攻击代理生成的提示的有效性,并提供反馈信号。4) 强化学习算法:用于训练攻击代理,使其能够生成更有效的对抗性提示。整个流程如下:攻击代理生成提示,发送给LLM目标模型,LLM返回响应,奖励函数根据响应评估攻击效果,并将奖励反馈给攻击代理,攻击代理根据奖励更新策略。

关键创新:LeakAgent的关键创新在于:1) 基于强化学习的自动化攻击:将隐私泄露攻击建模为强化学习问题,实现了自动化和高效的攻击。2) 新颖的奖励函数:设计了细粒度的奖励函数,能够更准确地评估攻击效果,并引导攻击代理学习。3) 探索-利用平衡机制:设计了机制来平衡强化学习中的探索和利用,从而增强对抗性提示的多样性,避免陷入局部最优。

关键设计:奖励函数的设计是关键。论文设计了针对训练数据提取和系统提示提取的不同奖励函数。对于训练数据提取,奖励基于提取出的文本与已知训练数据的相似度。对于系统提示提取,奖励基于提取出的文本与预定义的关键词的匹配程度。此外,为了平衡探索和利用,论文采用了epsilon-greedy策略,并引入了基于互信息的探索奖励,鼓励攻击代理探索新的攻击策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LeakAgent在训练数据提取方面显著优于现有的基于规则的方法,在系统提示泄露方面优于自动化方法。实验结果表明,LeakAgent能够成功提取OpenAI GPT商店中真实应用程序的系统提示。此外,LeakAgent还能够有效规避现有的防御机制,证明了其强大的攻击能力。消融研究验证了奖励函数和探索-利用平衡机制的有效性。

🎯 应用场景

LeakAgent可应用于评估和提升LLM的安全性,帮助开发者发现和修复潜在的隐私漏洞。该框架可用于红队测试,模拟真实攻击场景,评估LLM在各种对抗性提示下的表现。此外,LeakAgent还可以用于指导LLM的安全对齐,帮助模型更好地理解和遵守隐私保护原则,从而构建更安全可靠的LLM应用。

📄 摘要(原文)

Recent studies have discovered that large language models (LLM) may be ``fooled'' to output private information, including training data, system prompts, and personally identifiable information, under carefully crafted adversarial prompts. Existing red-teaming approaches for privacy leakage either rely on manual efforts or focus solely on system prompt extraction, making them ineffective for severe risks of training data leakage. We propose LeakAgent, a novel black-box red-teaming framework for LLM privacy leakage. Our framework trains an open-source LLM through reinforcement learning as the attack agent to generate adversarial prompts for both training data extraction and system prompt extraction. To achieve this, we propose a novel reward function to provide effective and fine-grained rewards and design novel mechanisms to balance exploration and exploitation during learning and enhance the diversity of adversarial prompts. Through extensive evaluations, we first show that LeakAgent significantly outperforms existing rule-based approaches in training data extraction and automated methods in system prompt leakage. We also demonstrate the effectiveness of LeakAgent in extracting system prompts from real-world applications in OpenAI's GPT Store. We further demonstrate LeakAgent's effectiveness in evading the existing guardrail defense and its helpfulness in enabling better safety alignment. Finally, we validate our customized designs through a detailed ablation study. We release our code here https://github.com/rucnyz/LeakAgent.