$p^2$RAG: Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval
作者: Yulong Ming, Mingyue Wang, Jijia Yang, Cong Wang, Xiaohua Jia
分类: cs.CR, cs.AI
发布日期: 2026-03-16
备注: 12 pages, 3 figures
💡 一句话要点
提出$p^2$RAG,一种支持任意Top-$k$检索的隐私保护RAG服务。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐私保护 检索增强生成 RAG Top-k检索 安全计算 秘密共享 二分查找
📋 核心要点
- 现有隐私保护RAG系统在支持任意Top-$k$检索时面临挑战,无法灵活调整$k$值,或在大$k$值下效率显著降低。
- $p^2$RAG采用交互式二分法,避免了对候选文档的排序,从而实现了对任意$k$值的支持,提升了效率。
- 实验结果表明,$p^2$RAG在$k=16$到$k=1024$的范围内,比现有最先进的PRAG系统快3到300倍。
📝 摘要(中文)
检索增强生成(RAG)使大型语言模型能够利用外部知识,但外包RAG服务引发了数据所有者和用户的隐私问题。隐私保护RAG系统通过执行安全Top-$k$检索来解决这些问题,通常涉及安全排序以识别相关文档。然而,现有系统在支持任意$k$时面临挑战,因为它们无法更改$k$,存在新的安全问题,或者在大$k$时效率降低。这是一个重要的限制,因为现代长上下文模型通常使用更大的检索集获得更高的准确性。我们提出了$p^2$RAG,一种支持任意Top-$k$检索的隐私保护RAG服务。与现有系统不同,$p^2$RAG避免了对候选文档进行排序。相反,它使用交互式二分法来确定Top-$k$文档的集合。在安全性方面,$p^2$RAG在两个半诚实非共谋服务器上使用秘密共享来保护数据所有者的数据库和用户的提示。它强制执行限制和验证,以防御恶意用户并严格限制数据库的信息泄露。实验表明,对于$k = 16$--$1024$,$p^2$RAG比最先进的PRAG快3--300倍。
🔬 方法详解
问题定义:论文旨在解决隐私保护的RAG服务中,现有方案无法高效支持任意Top-$k$检索的问题。现有方法通常依赖于安全排序,当需要改变$k$值,特别是当$k$值较大时,效率会显著下降,或者会引入新的安全漏洞。这限制了RAG在长上下文模型中的应用,因为这些模型通常需要更大的检索集合才能达到更高的准确率。
核心思路:$p^2$RAG的核心思路是避免对所有候选文档进行排序,而是采用一种交互式的二分查找方法来确定Top-$k$文档的集合。通过迭代地将候选集划分为两部分,并根据用户提供的阈值进行比较,逐步缩小搜索范围,最终找到Top-$k$文档。这种方法避免了全局排序的开销,从而提高了效率。
技术框架:$p^2$RAG的整体框架包括数据所有者、用户和两个半诚实非共谋的服务器。数据所有者将数据库进行秘密共享,分发到两个服务器上。用户发起查询时,也将其查询进行秘密共享。服务器之间进行交互式的二分查找计算,最终确定Top-$k$文档,并将结果返回给用户。整个过程中,数据所有者的数据库和用户的查询都受到保护。
关键创新:$p^2$RAG的关键创新在于使用交互式二分法来代替传统的安全排序。这种方法避免了对所有候选文档进行排序的需要,从而显著提高了效率,尤其是在$k$值较大时。此外,该系统还采用了秘密共享和严格的验证机制,以确保数据所有者和用户的隐私安全。
关键设计:$p^2$RAG的关键设计包括:1) 使用秘密共享将数据分散到两个服务器上,防止单点泄露;2) 采用交互式二分法,通过多轮比较快速定位Top-$k$文档;3) 实施严格的限制和验证机制,防止恶意用户篡改数据或泄露信息。具体的参数设置包括二分查找的迭代次数、秘密共享的方案选择等。论文中没有明确提及损失函数或网络结构,因为该方法主要关注安全检索算法的设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,$p^2$RAG在检索效率方面显著优于现有技术。对于$k=16$到$k=1024$的范围,$p^2$RAG比最先进的PRAG系统快3到300倍。这表明$p^2$RAG在处理大规模数据集和支持高精度检索方面具有显著优势,为实际应用提供了更高效的解决方案。
🎯 应用场景
$p^2$RAG可应用于需要保护数据隐私的各种RAG场景,例如医疗健康、金融服务和法律咨询等领域。它能够安全地利用外部知识增强大型语言模型的能力,同时保护数据所有者的数据和用户的查询隐私。该研究的成果有助于推动RAG技术在隐私敏感领域的应用,并促进安全可信的人工智能发展。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) enables large language models to use external knowledge, but outsourcing the RAG service raises privacy concerns for both data owners and users. Privacy-preserving RAG systems address these concerns by performing secure top-$k$ retrieval, which typically is secure sorting to identify relevant documents. However, existing systems face challenges supporting arbitrary $k$ due to their inability to change $k$, new security issues, or efficiency degradation with large $k$. This is a significant limitation because modern long-context models generally achieve higher accuracy with larger retrieval sets. We propose $p^2$RAG, a privacy-preserving RAG service that supports arbitrary top-$k$ retrieval. Unlike existing systems, $p^2$RAG avoids sorting candidate documents. Instead, it uses an interactive bisection method to determine the set of top-$k$ documents. For security, $p^2$RAG uses secret sharing on two semi-honest non-colluding servers to protect the data owner's database and the user's prompt. It enforces restrictions and verification to defend against malicious users and tightly bound the information leakage of the database. The experiments show that $p^2$RAG is 3--300$\times$ faster than the state-of-the-art PRAG for $k = 16$--$1024$.