CacheProbe: Auditing Prompt Cache Isolation in Gateway APIs
作者: Ryan Fahey
分类: cs.CR, cs.LG
发布日期: 2026-05-28
备注: 11 pages, 8 figures, 2 tables Accepted at SAGAI '26 (Workshop on Secure Agents for Generative AI), co-located with IEEE Symposium on Security and Privacy 2026
💡 一句话要点
CacheProbe:审计网关API中Prompt缓存隔离的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Prompt缓存 缓存隔离 API网关 LLM安全 安全审计
📋 核心要点
- 大型语言模型推理API中的Prompt缓存虽能提升效率,但安全性不足,易受攻击。
- 该研究旨在评估OpenRouter API网关架构是否破坏了LLM提供商的Prompt缓存隔离机制。
- 通过实验分析,揭示OpenRouter可能引入的全局缓存共享风险,威胁用户数据安全。
📝 摘要(中文)
近年来,大型语言模型(LLM)中的Prompt缓存在推理API中变得越来越流行。Prompt缓存通过为另一个请求重用特定prompt的KV缓存部分,从而节省宝贵的计算资源并加快响应时间。然而,许多prompt缓存的实现对于时间攻击甚至基本的元数据泄露都不安全。Gu等人(ICML 2025)开发了一种审计LLM中prompt缓存的方法。本文研究了OpenRouter的API网关架构是否引入了绕过提供商级别prompt缓存隔离保证的prompt缓存漏洞。大多数LLM推理提供商都实施了按帐户或按组织划分的prompt缓存,以防止数据泄漏,但通过具有共享组织凭据的OpenRouter进行路由是否会无意中创建跨所有OpenRouter用户的全局缓存共享?
🔬 方法详解
问题定义:论文旨在解决OpenRouter等API网关架构是否会破坏底层LLM提供商所提供的Prompt缓存隔离的问题。现有的LLM服务提供商通常会实施按账户或组织划分的缓存策略,以防止数据泄露。然而,通过OpenRouter这样的中间层进行路由,并且使用共享的组织凭据,可能会导致不同用户之间共享缓存,从而产生安全漏洞。
核心思路:核心思路是通过设计特定的Prompt序列,并观察其在不同用户之间的缓存命中情况,来判断OpenRouter是否实现了有效的Prompt缓存隔离。如果一个用户发送的Prompt被缓存,而另一个用户在没有发送相同Prompt的情况下也能命中缓存,则说明存在缓存共享,隔离被破坏。
技术框架:该研究采用了一种审计方法,称为CacheProbe。该方法主要包含以下步骤:1) 选择目标LLM服务提供商,并通过OpenRouter API发送一系列精心设计的Prompt。2) 监控每个Prompt的响应时间,响应时间较短可能意味着缓存命中。3) 使用不同的OpenRouter用户账户重复上述过程,并比较不同用户之间的缓存命中模式。4) 分析缓存命中模式,判断是否存在跨用户的缓存共享。
关键创新:该研究的关键创新在于提出了一个针对API网关架构下Prompt缓存隔离的审计方法。与以往针对单个LLM服务提供商的缓存攻击不同,该研究关注的是中间层API网关引入的新的安全风险。
关键设计:Prompt的设计至关重要。需要设计能够有效触发缓存,并且能够区分不同用户请求的Prompt序列。此外,还需要精确测量响应时间,以区分缓存命中和未命中。具体的参数设置和阈值需要根据目标LLM服务提供商的特性进行调整。
🖼️ 关键图片
📊 实验亮点
该研究通过实验证明,OpenRouter的API网关架构可能存在Prompt缓存隔离漏洞,导致不同用户之间共享缓存。具体性能数据未知,但研究结果表明,通过共享组织凭据使用OpenRouter可能会绕过底层LLM提供商的缓存隔离机制,从而暴露用户数据。
🎯 应用场景
该研究成果可应用于评估和改进LLM推理API网关的安全性,确保用户数据的隔离性。对于LLM服务提供商和API网关开发者,可以借鉴该研究的方法来检测和修复潜在的缓存隔离漏洞。此外,该研究也提醒用户在使用第三方API网关时,需要关注其安全性,避免数据泄露的风险。
📄 摘要(原文)
Over the past year, prompt caching in Large Language Models (LLMs) has become increasingly more popular across inference APIs. Prompt caching helps save precious compute resources and speeds up response times by reusing parts of the KV cache of a specific prompt for another request. However, many implementations of prompt caching are not secure against timing attacks or even basic metadata disclosure. Gu et al. (ICML 2025) develop a method to audit prompt caching in LLMs. This paper investigates whether OpenRouter's API gateway architecture introduces prompt caching vulnerabilities that bypass provider-level prompt cache isolation guarantees. Most LLM inference providers implement per-account or per-organization prompt caching to prevent data leaks, but does routing through OpenRouter with shared organizational credentials inadvertently create global cache sharing across all OpenRouter users?