Auditing Prompt Caching in Language Model APIs

📄 arXiv: 2502.07776v2 📥 PDF

作者: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto

分类: cs.CL, cs.CR, cs.LG

发布日期: 2025-02-11 (更新: 2025-07-13)

备注: Accepted at ICML 2025


💡 一句话要点

通过时序审计揭示LLM API中的Prompt缓存及潜在隐私泄露风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Prompt缓存 隐私泄露 时序攻击 API安全

📋 核心要点

  1. 大型语言模型API的Prompt缓存机制可能导致时序侧信道攻击,威胁用户隐私,现有方法缺乏有效的检测手段。
  2. 该论文提出一种基于统计审计的方法,通过分析API响应时间的变化来检测Prompt缓存的存在和共享情况。
  3. 实验结果表明,包括OpenAI在内的多个API提供商存在跨用户的全局缓存共享,并推断出OpenAI embedding模型的架构信息。

📝 摘要(中文)

大型语言模型(LLM)中的Prompt缓存会导致数据依赖的时序变化:缓存的prompt比未缓存的prompt处理速度更快。这些时序差异带来了侧信道时序攻击的风险。例如,如果缓存跨用户共享,攻击者可以从快速的API响应时间中识别缓存的prompt,从而了解其他用户的prompt信息。由于prompt缓存可能导致隐私泄露,因此API提供商缓存策略的透明度非常重要。为此,我们开发并进行了统计审计,以检测真实LLM API提供商中的prompt缓存。我们检测到包括OpenAI在内的七个API提供商中存在跨用户的全局缓存共享,从而导致用户prompt的潜在隐私泄露。Prompt缓存导致的时序变化也可能导致模型架构信息的泄露。具体来说,我们发现证据表明OpenAI的embedding模型是一个decoder-only Transformer,这在以前是不公开的。

🔬 方法详解

问题定义:论文旨在解决大型语言模型API中Prompt缓存带来的隐私泄露问题。现有的LLM API提供商通常不公开其缓存策略,这使得用户难以评估潜在的隐私风险。攻击者可以通过分析API响应时间的差异来推断其他用户的Prompt信息,从而造成隐私泄露。因此,需要一种有效的方法来检测LLM API中的Prompt缓存行为,并评估其对用户隐私的影响。

核心思路:论文的核心思路是利用统计审计方法,通过分析API响应时间的变化来检测Prompt缓存的存在。如果某个Prompt被缓存,那么后续对该Prompt的请求响应时间会显著减少。通过大量重复请求,并分析响应时间的分布,可以判断是否存在Prompt缓存,以及缓存是否在用户之间共享。

技术框架:该论文提出的审计框架主要包含以下几个阶段:1) Prompt选择:选择一组具有代表性的Prompt,用于发送给LLM API。2) 请求发送:向LLM API发送大量重复的Prompt请求,并记录每次请求的响应时间。3) 数据分析:对收集到的响应时间数据进行统计分析,包括计算平均响应时间、标准差等。4) 缓存检测:基于响应时间的分布特征,判断是否存在Prompt缓存,以及缓存是否在用户之间共享。5) 模型推断:通过分析不同Prompt的响应时间差异,推断LLM API底层模型的架构信息。

关键创新:该论文的关键创新在于提出了一种基于时序分析的Prompt缓存检测方法,该方法不需要访问LLM API的内部实现,只需要通过外部观察API响应时间即可实现。此外,该论文还首次揭示了多个主流LLM API提供商存在跨用户的全局缓存共享,并利用时序信息推断出OpenAI embedding模型的架构信息。

关键设计:在实验设计方面,论文采用了多种统计方法来分析响应时间数据,包括t检验、Kolmogorov-Smirnov检验等,以确保检测结果的可靠性。此外,论文还考虑了网络延迟等因素对响应时间的影响,并采取了相应的措施进行校正。在模型推断方面,论文通过分析不同长度Prompt的响应时间差异,推断出OpenAI embedding模型是一个decoder-only Transformer。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,包括OpenAI、Cohere、AI21 Labs等七个主流LLM API提供商存在跨用户的全局缓存共享,这意味着一个用户的Prompt可能会被其他用户访问。此外,通过分析OpenAI embedding模型的响应时间,推断出其底层架构是一个decoder-only Transformer,这在之前是不公开的信息。该研究揭示了LLM API中Prompt缓存带来的潜在隐私风险,并为API提供商和用户提供了有价值的参考。

🎯 应用场景

该研究成果可应用于评估和改进LLM API的安全性与隐私性。API提供商可以利用该方法检测和修复潜在的缓存共享漏洞,从而保护用户隐私。开发者可以使用该方法来评估不同LLM API的隐私风险,并选择更安全的API。此外,该研究还可以促进LLM API缓存策略的透明化,提高用户对LLM技术的信任度。

📄 摘要(原文)

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.