Differential Privacy in Generative AI Agents: Analysis and Optimal Tradeoffs

📄 arXiv: 2603.17902v1 📥 PDF

作者: Ya-Ting Yang, Quanyan Zhu

分类: cs.CR, cs.AI

发布日期: 2026-03-18


💡 一句话要点

针对生成式AI Agent,提出基于差分隐私的隐私泄露分析与最优权衡方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 生成式AI Agent 隐私泄露分析 隐私-效用权衡 大型语言模型

📋 核心要点

  1. 现有AI Agent在企业应用中存在隐私泄露风险,尤其是在访问和生成涉及敏感数据的响应时,对企业数据隐私的保护不足。
  2. 论文提出基于差分隐私的概率框架,分析AI Agent中的隐私泄露,将响应生成建模为随机机制,并引入token和消息级别的差分隐私。
  3. 论文推导了隐私泄露与生成参数(如温度和消息长度)之间的关系,并通过隐私-效用设计问题,优化温度选择以实现隐私保护和效用之间的平衡。

📝 摘要(中文)

大型语言模型(LLMs)和AI Agent越来越多地集成到企业系统中,以访问内部数据库并生成上下文相关的响应。虽然这种集成提高了生产力和决策支持,但模型输出可能会无意中泄露敏感信息。尽管之前的许多工作都集中在保护用户提示的隐私上,但相对较少的研究考虑来自企业数据角度的隐私风险。因此,本文开发了一个概率框架,用于分析基于差分隐私的AI Agent中的隐私泄露。我们将响应生成建模为一个随机机制,该机制将提示和数据集映射到token序列上的分布。在此框架内,我们引入了token级别和消息级别的差分隐私,并推导出将隐私泄露与生成参数(如温度和消息长度)相关的隐私界限。我们进一步提出了一个隐私-效用设计问题,该问题描述了最优的温度选择。

🔬 方法详解

问题定义:论文旨在解决生成式AI Agent在访问企业内部数据库并生成响应时,可能泄露企业敏感数据的隐私问题。现有方法主要关注用户提示的隐私保护,而忽略了企业数据本身的隐私风险。因此,需要一种方法来量化和控制AI Agent中的隐私泄露,同时保持其效用。

核心思路:论文的核心思路是将AI Agent的响应生成过程建模为一个随机机制,并利用差分隐私(Differential Privacy, DP)来量化和限制隐私泄露。通过分析生成参数(如温度)对隐私泄露的影响,并优化这些参数,可以在隐私保护和模型效用之间找到一个平衡点。

技术框架:论文的技术框架主要包括以下几个部分:1) 将AI Agent的响应生成建模为一个随机机制,该机制将提示和数据集映射到token序列的概率分布;2) 定义了token级别和消息级别的差分隐私,用于量化不同粒度的隐私泄露;3) 推导了隐私泄露与生成参数(如温度和消息长度)之间的关系;4) 提出了一个隐私-效用设计问题,通过优化温度选择,在满足差分隐私约束的同时,最大化模型的效用。

关键创新:论文的关键创新在于:1) 从企业数据隐私的角度,分析了生成式AI Agent的隐私泄露风险,填补了现有研究的空白;2) 提出了token级别和消息级别的差分隐私定义,更细粒度地量化了隐私泄露;3) 将隐私泄露与生成参数联系起来,为隐私保护的参数优化提供了理论基础。

关键设计:论文的关键设计包括:1) 使用温度参数控制生成token序列的随机性,温度越高,随机性越大,隐私保护越强,但模型效用可能降低;2) 定义了隐私损失函数,用于量化隐私泄露程度;3) 构建了隐私-效用优化问题,目标是在满足差分隐私约束的前提下,最大化模型的效用,例如响应的准确性和相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文推导了隐私泄露与生成参数(如温度和消息长度)之间的关系,并提出了一个隐私-效用设计问题,通过优化温度选择,在满足差分隐私约束的同时,最大化模型的效用。具体性能数据未知,但该方法为实际应用中平衡隐私保护和模型效用提供了理论指导。

🎯 应用场景

该研究成果可应用于各种需要访问敏感数据的生成式AI Agent,例如医疗诊断、金融风控、法律咨询等领域。通过控制生成参数,可以在保护用户隐私的同时,保证AI Agent的决策支持能力。该研究有助于推动AI技术在敏感领域的安全应用,并为企业提供更可靠的隐私保护方案。

📄 摘要(原文)

Large language models (LLMs) and AI agents are increasingly integrated into enterprise systems to access internal databases and generate context-aware responses. While such integration improves productivity and decision support, the model outputs may inadvertently reveal sensitive information. Although many prior efforts focus on protecting the privacy of user prompts, relatively few studies consider privacy risks from the enterprise data perspective. Hence, this paper develops a probabilistic framework for analyzing privacy leakage in AI agents based on differential privacy. We model response generation as a stochastic mechanism that maps prompts and datasets to distributions over token sequences. Within this framework, we introduce token-level and message-level differential privacy and derive privacy bounds that relate privacy leakage to generation parameters such as temperature and message length. We further formulate a privacy-utility design problem that characterizes optimal temperature selection.