CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

📄 arXiv: 2603.10726v1 📥 PDF

作者: Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra Doudali

分类: cs.CR, cs.DC, cs.LG

发布日期: 2026-03-11


💡 一句话要点

CacheSolidarity:防止多租户LLM服务系统中前缀缓存侧信道攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 侧信道攻击 前缀缓存 多租户系统 缓存隔离

📋 核心要点

  1. 多租户LLM服务中的自动前缀缓存(APC)虽然提升了效率,但引入了可被利用的时间侧信道,威胁用户隐私。
  2. CacheSolidarity通过监控缓存重用、标记可疑共享和选择性隔离前缀,在安全性和效率之间取得平衡。
  3. 实验表明,CacheSolidarity相比于隔离用户的防御方法,能够显著提升缓存重用率并降低推理延迟。

📝 摘要(中文)

大型语言模型(LLM)依赖于自动前缀缓存(APC)等优化技术来加速推理。APC通过重用请求起始部分(前缀)的先前计算状态来工作,当另一个请求以相同的文本开始时。虽然APC提高了吞吐量,但它引入了时间侧信道:缓存命中比未命中更快,从而产生可观察的延迟差异。在多租户系统中,攻击者可以利用这些差异来推断敏感信息,例如,通过观察命中/未命中模式来逐步重建另一个用户的请求。目前的防御方法采取一刀切的方式:它们禁用APC和缓存共享,隔离用户,并牺牲效率来保证普通用户的安全。本文提出了CacheSolidarity,该系统可以保护多租户LLM服务系统免受APC侧信道攻击,而不会牺牲性能和效率。CacheSolidarity监控用户之间的缓存重用,标记可疑共享,并选择性地隔离前缀,仅在必要时限制其重用。评估表明,与隔离用户的现有防御措施相比,CacheSolidarity能够实现高达70%的缓存重用率和30%的推理延迟降低。CacheSolidarity的轻量级设计表明,LLM服务中的安全性不必以不必要地降低性能或带来难以承受的开销为代价。

🔬 方法详解

问题定义:论文旨在解决多租户LLM服务系统中,由于自动前缀缓存(APC)引入的时间侧信道漏洞问题。现有的防御方法通常直接禁用APC和缓存共享,导致性能大幅下降,牺牲了普通用户的效率。因此,如何在保证安全性的同时,尽可能地保留APC带来的性能优势,是本研究需要解决的关键问题。

核心思路:CacheSolidarity的核心思路是监控用户之间的缓存重用情况,并根据重用模式判断是否存在潜在的侧信道攻击。对于可疑的缓存共享行为,系统会选择性地隔离相关的前缀,限制其重用范围,从而阻止攻击者利用缓存状态推断其他用户的敏感信息。这种选择性隔离策略避免了全局禁用APC带来的性能损失。

技术框架:CacheSolidarity主要包含以下几个模块:1) 缓存监控模块:负责跟踪用户之间的缓存重用情况,记录每个前缀被不同用户访问的频率和时间。2) 风险评估模块:基于缓存监控数据,评估是否存在潜在的侧信道攻击风险。该模块会标记可疑的共享行为,例如,某个前缀被多个用户频繁访问,且这些用户之间存在关联。3) 隔离控制模块:根据风险评估结果,选择性地隔离存在风险的前缀。隔离方式可以是限制前缀的重用范围,例如,只允许同一用户重用该前缀,或者完全禁用该前缀的缓存。

关键创新:CacheSolidarity的关键创新在于其选择性的隔离策略。与传统的“一刀切”式防御方法不同,CacheSolidarity能够根据实际的风险情况,动态地调整隔离策略,从而在安全性和效率之间取得更好的平衡。这种选择性隔离策略能够最大限度地保留APC带来的性能优势,同时有效地阻止侧信道攻击。

关键设计:CacheSolidarity的关键设计包括:1) 缓存监控模块中,需要选择合适的监控指标,例如,前缀的访问频率、用户之间的关联程度等。2) 风险评估模块中,需要设计合理的风险评估算法,准确地识别潜在的侧信道攻击。3) 隔离控制模块中,需要选择合适的隔离方式,例如,限制前缀的重用范围、完全禁用前缀的缓存等。这些设计都需要根据具体的应用场景进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CacheSolidarity相比于隔离用户的现有防御方法,能够实现高达70%的缓存重用率提升和30%的推理延迟降低。这表明CacheSolidarity能够在保证安全性的同时,显著提升LLM服务的性能和效率。这些数据充分证明了CacheSolidarity的有效性和实用性。

🎯 应用场景

CacheSolidarity适用于各种多租户LLM服务系统,例如云端LLM推理服务、在线聊天机器人平台等。通过防止前缀缓存侧信道攻击,CacheSolidarity可以保护用户的隐私和敏感信息,提升系统的安全性。该研究成果有助于推动LLM服务在安全可靠的环境下广泛应用,并为未来的LLM安全研究提供新的思路。

📄 摘要(原文)

Large Language Models (LLMs) rely on optimizations like Automatic Prefix Caching (APC) to accelerate inference. APC works by reusing previously computed states for the beginning part of a request (prefix), when another request starts with the same text. While APC improves throughput, it introduces timing side channels: cache hits are faster than misses, creating observable latency differences. In multi-tenant systems, attackers can exploit these differences to infer sensitive information, e.g., by incrementally reconstructing another user's request by observing hit/miss patterns. Current defenses take a sledgehammer approach: they disable APC and cache sharing, isolating users, and sacrificing efficiency for regular users. This paper presents CacheSolidarity, a system that secures multi-tenant LLM serving systems against APC side channels without sacrificing performance and efficiency. CacheSolidarity monitors cache reuse across users, flags suspicious sharing, and selectively isolates prefixes, restricting their reuse only when necessary. Evaluation shows that CacheSolidarity enables up to 70% higher cache reuse and 30% lower inference latency compared to existing defenses that isolate users. CacheSolidarity's lightweight design demonstrates how security in LLM serving does not have to come at the cost of unnecessarily reduced performance or unbearable overheads.